四火
发表于
2017-02-26 04:32:55

写在老梁事件发生之际

一个我很喜欢的时评人，老梁（梁宏达）最近被封杀了。原因只是用质疑的语言评价了一些传统意义上的正面光辉形象，比如雷锋、焦裕禄等等。他的观点与官媒背道而驰，于是伟光正的广电总局终于无法忍受，封杀了他。事实上，他还没太敢触及更尖锐的话题，涉及更惊人的人物春秋。你我都明白，他是收着说话的，他是说好听话的，他还是尽量缓和地在歌功颂德中揭露一些丑恶。我记得最近一年来，我喜欢听这么几个人的评论或者脱口秀节目：罗辑思维的罗振宇，听他讲历史、讲社会问题挺有趣，生动而且视角独特，但是他不太讲尖锐的社会问题，不太讲当今国内的政治问题；大唐雷音寺的老梁，我最喜欢的地方在于，对于社会时事热点，能够用非常通俗和接地气的语言来解剖，观点鲜明犀利（能坚持到近期不被打压已是奇迹），涉猎极其广泛，对于体育方面则是相当有深度；晓说的高晓松，他涉足了四十多个国家，这点上当然不是盖的，见识广博，为理想而活，当然高晓松讲音乐才是最棒的；徐静波电台，听听一些日本趣事，有些话题挺生活化，营养价值可能相对其他这些小一些，路线更加正确一些；其实还有一些其他人，但是不能算常听。最近同事推荐，我才开始听“文昭博古论今”，就先不发表评论了。如果你有推荐，也不妨告诉我，一起讨论。我一直觉得，媒体是统治阶级的喉舌，这是现代才逐渐有的概念，并且随之兴起的功用有数十种。可是本源上，媒体就应该是具备下面两个最最原始的职责和特性：通风报信——真实性， ...继续阅读 (59)

四火
发表于
2017-02-15 01:23:00

克罗恩病

这是一个关于自己的故事。大概是去年我被诊断出克罗恩病的，要说以前，大概只是大概知道它是什么，我想对于大多数人来说，这只不过是一个名词而已吧。去年9月份的时候，吃完虾以后，突然感到恶心腹痛，吐了又吐，难以忍受。实在没招了，凌晨的时候，我老婆开车把我送去邻近医院急诊。CT显示小肠末端处于发炎状态，有严重的狭窄，因此食物下不去。为这事儿住了两天院观察，做了一堆检查，严格禁食，等到炎症缓和一些，就出院了，但是医生告诉我，但愿只是病毒引起，也可能是别的疾病，但必须去完善肠镜。一个月以后，除了巨额账单，肠镜的结果更令人失望，除了小肠末端狭窄依然存在以外，活检发现一些肠壁的损伤，包括炎症性质的肉芽肿，又经过检查排除一些其他疾病以后，胃肠科的医生告诉我说，你这是克罗恩病（CD, Chrohn’s Disease）。这就有点麻烦了，因为克罗恩病是炎症性肠病的一种，并且通常认为没有治愈的可能，如果置之不理，很可能随着时间会不断进展，可在整个消化道出现溃疡、出血和狭窄等等症状，只能用对抗炎症的药物控制。随着病情发展，很快出现了长期腹痛和上消化道出血的症状，于是医生给我使用一个月的激素强的松（Prednisone）进行活跃期的治疗。同时我也拜访了外科大夫，检查了肠道功能并且评估了手术的必要，结论是暂时不需要。与此同时，我面临着长期治疗的药物选择。由于病灶不只是在结肠，在小肠也有，因此5-氨基水 ...继续阅读 (64)

四火
发表于
2017-01-19 05:19:00

LeetCode题目解答——第311到371题

老规矩，跳过需要付费的题目。题目是越来越不好做，我尽量把自己的思路写下来。371Sum of Two Integers 51.9%Easy368Largest Divisible Subset 31.9%Medium367Valid Perfect Square 36.9%Medium365Water and Jug Problem 24.7%Medium363Max Sum of Rectangle No Larger Than K 30.6%Hard357Count Numbers with Unique Digits 44.2%Medium355Design Twitter 23.5%Medium354Russian Doll Envelopes 30.6%Hard352Data Stream as Disjoint Intervals 38.2%Hard350Intersection of Two Arrays II 42.6%Easy349Intersection of Two Arrays 44.5%Easy347Top K Frequent Elements 44.4%Medium345Reverse Vowels of a String ...继续阅读 (56)

四火
发表于
2016-12-25 20:44:34

一些前端框架的比较（下）——Ember.js和React

这是前端框架比较和吐槽的第二篇。Ember.jsEmber.js的extend的写法很类似于JQuery或者是Backbone.js，创建Application，然后在它下面创建相应的Model（Object）、Controller、Router、View和Template，这些都是非常类似的。但是它更为先进的地方在于，一些重复的样板代码，比如给template注入上下文并渲染，如果命名按照CoC的原则正确完成的话，都由框架自动完成，这就省去不少体力活。CoC还体现在URL mapping上面，比如”/books/book_id”配置在books.index的Router里，Controller就是BooksIndexController，Router就是BooksRouter，Template就是books/index。除了CoC这个亮点，在解耦方面，Router里面设置区分里resource和route的概念，既清晰，又简洁。属性绑定是另一个和Backbone.js比强化了的地方，依然遵照CoC的原则，如果属性以Binding结尾，绑定属性就自动创建，而计算属性则（方法的输出和某些属性之间的依赖关系）使用property方法来显式建立关联。事件方面使用observes方法并传入属性名来建立监听，其实和Backbone.js是差不多的。我拿它不知不觉地和B ...继续阅读 (53)

四火
发表于
2016-12-23 00:11:07

一些前端框架的比较（上）——GWT、AngularJS和Backbone

和一些前端框架打过交道，想起来这也是技术选型中经常面对的内容。我把我的经验、思考、感受，甚至是吐槽，记录在这里，有些零散，并且更多的是个人的感悟。而且由于技术所限，可能部分内容不够深入，或者不甚客观。当然，网上有很多分析对比，视角可能更为全面和系统。如果你在技术选型，或者在考虑要学习使用哪一款MVC／MVP／MVVM框架的时候，此文能够给你有价值的信息，就更棒了。如果你觉得我哪些部分说得不正确，或者需要补充，也烦请告知。需要预先说明的是，这篇文章不是教程，因此如果你对其中某一框架知之甚少，可能需要先去简单学习了解以后才能和我产生共鸣，或者产生反驳的冲动。以下是第一部分，先谈谈GWT、AngularJS和Backbone。我会在周末和下几周努力去完成其余的部分。GWT我在《GWT初体验》里已经举例叙述了我的感受。好坏当然见仁见智，但是我是不喜欢它把JavaScript这样灵活而强大的能力约束起来的，代码可以写得干干净净、规规矩矩，但是也没有什么乐趣可言。但是作为从后端语言渗透到前端的尝试，和Node.js这样从前端渗透到后端的“异类”一样，无疑是具有代表性意义的。GWT的贡献远不只是在于语言转化的层面，在架构控制上面，非常有效。比方说“无状态服务端+状态化的客户端”这样的经典组合，包括其中客户端和服务端数据交换这样典型的问题上面，处理得非常成熟，并且不需要程序员过多的介入（比如不用选 ...继续阅读 (93)

四火
发表于
2016-12-21 18:45:07

技术光谱

最近在做一些技术选型的工作，忽然想到，可以把接触过的一些技术通过“相互比较”的方式整理起来，知其利弊，也把知识内容线索化。这其中大部分是我使用过的，但是也有一些是因为某些原因而学习过的。有一些文章因为时间的关系，比较起来现在我的看法已经发生了改变，但我还是原封不动保留着。对于想做但还没有完成的部分，我会放置一个“TODO”的标记。这个列表会不断更新。编程：编程语言：《从Java和JavaScript来学习Haskell和Groovy》编程范型：《编程范型详解》语言动态性：TODO系统：工作流系统：TODO分布式计算：TODO读写模型：《读写模型整理笔记》JavaEE模式：《J2EE 核心模式学习理解和记录》缓存框架：TODO线程池：TODO存储：NoSQL数据库：TODO存储方案：TODO前端：前端MVC／MVP／MVVM框架：TODO模版引擎：TODO浏览器跨域：《跨域方法汇总》图形标记语言：《网络图形标准》依赖管理：TODO后端：后端MVC框架：TODOWeb容器：TODO算法和数据结构：容器类型：《Java容器类型复习笔记》并发工具：《java.util.concurrent并发包诸类概览》数据格式：《XML和JSON》，TODO数据挖掘算法：《数据挖掘学习笔记：分类、统计学习》排序算法：《排序算法一览（上）：交换类、选择类和插入类排序》，《排序算法一览（下）：归并类、分布类 ...继续阅读 (54)

四火
发表于
2016-12-03 15:41:02

文档那些事儿

还记得在2008年我做毕业设计的时候，自己心里有一个朦朦胧胧的概念，大概是说，要规范，制度上有标准，流程上有遵循。于是噼里啪啦整了软件工程十项文档，再加上一些辅助性文档就有了下面这个清单。我以为那样的全面会带来更好的评价，但是老师说，“太多了”，我很困惑，难道文档全面、综合，而且完备，这不好么？在Amazon有一个大家都知道和反复自黑的事情。所有team都用wiki来记录和维护项目、产品有关的事情，但是绝大多数wiki的内容都是过时的和不准确的。有几次和其他互联网公司的朋友讨论过这个话题，大家都付诸呵呵一笑，原来大家都差不多。这让我思考，是不是文档这样的东西，和代码不同，它更容易过时，它更难以融入现代软件开发的流程中去？要是早些年，我可能还很乐于见到那些鼓吹方法论的敏捷咨询师们，跳出来讲：来，看看我的敏捷实践，我们需要怎样怎样清晰简单的文档，我们不需要如何如何复杂冗余的设计。但是现在我越来越觉得，对于工程师来说，文档和代码从根上的不同，让前者同后者一样保持新鲜和完备，不是一件能够自然和遵循工程规律的事情。如果我改变了一个特性，负责的工程师会完善代码，更新测试用例，并且跟进代码审查。但是很少有工程师会记得去把文档更新和补充完全。项目计划的时候，scrum的时候，如果说，“花一天时间来完善文档”，这听起来有点不那么充实啊。文档的地位，总让人觉得不那么正派而光明磊落。在我前一家公司，项目 ...继续阅读 (63)

四火
发表于
2016-11-19 04:10:43

游戏中的货币和通货膨胀

忽然想谈谈这个话题，是因为最近开始接触一款游戏《Path of Exile》。它可以说是市面上最接近暗黑II的游戏，甚至比暗黑III还要接近。作为一个暗黑II的十多年的爱好者，它自然引起了我的兴趣。我渐渐发现它有许多吸引我的地方，而其中关于游戏中货币的设计和对通货膨胀的压制都很值得玩味。不可否认《暗黑破坏神II》影响了一代人，也影响了无数后续的游戏设计制作人，其中不少独创性的设计都让人印象深刻。比如从1.10开始成熟的技能树和技能加成系统，比如地图自动生成系统，比如怪物、武器装备的生成规则（前缀、后缀等等），再比如真实化打击感的设计（打击感即便放到今天依然先进）等等。毫无疑问我从太多的游戏后辈中看到了暗黑的影子。比如《泰坦之旅》，比如《Fate》，比如《火炬之光》，甚至一度在国内大热的《传奇》和《秦殇》。《Path of Exile》未必是这些后辈中最有名的，但却是风格上最接近的，而且有许多很有意思的创意设定。比如发扬光大的庞大技能树系统，每个角色都有更容易修炼的技能树分支，但是却没有严格的限制，因此角色的发展是自由的。货币体系则是另一个非常有创意的设计。首先，暗黑II，甚至包括接下来的暗黑III，金币往往失去了它本该具备的意义。尤其是暗黑II，有句话叫做“最不值钱的就是钱”——大量的金币无处消耗，似乎游戏中的“赌博”是唯一一个值得投入的地方，但是在后期能够通过赌博得到对角色有价值 ...继续阅读 (60)

四火
发表于
2016-11-16 05:33:36

写在孩子出生以后

最近这一年可谓五味陈杂，各种起伏波动陆陆续续袭来，有时候感到生活艰辛，身心疲惫。就在一周前，也就是11月8号的时候，我们的孩子Lucas诞生了。整个降临过程持续了一昼夜，也折磨了他妈妈24个小时。好在最后母子平安健康。古人说，三十而立，而在30岁这一年同时也做了爸爸，这对我来说是一个巨大的变化。以往总在说成长，现在要说成熟，有了孩子以后，有许多生活上的琐事需要去做，而教育更是一个无比重要神圣的事情。我相信会多一些欢声笑语，也会多不少困难烦恼。无论如何，这是一个人生旅途上的重要节点，我也开始思考一些过去不曾思考的问题。我想用朴素的文字，记录一点内心的感受。对Lucas的祝愿在微信朋友圈里面，我写下了对他的祝愿语，最重要的三个词是：健康、独立、快乐。首先，健康是一切的根本，也许它会被忘记，不过只会被拥有它的人忘记。独立则是我对于他在未来人格、思想和生活塑造上的期冀，既要能够自己面对和处理那些未知的困难，也要懂得思索和坚持自己认可的观点。最后，快乐则源于我希望他能够享受生命，享受生活中那些美丽和温暖的事情。生活需要经营大概读书的时候，还有刚工作的时候，我的生活是快节奏、高密度的。无论是学习、娱乐，还是工作。即便称不上井井有条，我至少也给自己充分的计划，以及妥善的安排。但是有这样一件事情在慢慢改变我。它就是抑郁症。过去一年，我一直被抑郁症折磨，似乎对绝大多数事物都失去了兴趣，头晕、恍惚、注 ...继续阅读 (50)

四火
发表于
2016-10-25 04:16:02

从工具使用的痛苦说开去

是因为最近团队里的数据分析师（data analyst）向我抱怨，为了分析数据，要跑job，要执行pipeline，要用Spark来算结果，但是期间遇到各种问题，虽然我们一起研究问题的解决方法，但是依然非常耗时而且令人沮丧。这些问题大多并非数据本身的问题，而是工程问题。换言之，我认为数据分析师的价值在于数据思维，他们有我们软件工程师不具备的数据敏感性，他们能从海量的数据中获得有价值的信息——但是如今他们却陷入了因为工具问题而导致才华无法施展的境地，确实令人叹息。而工具的问题，正是应该由软件工程师来解决的。上班同车的同事Kai和我说，现在和几年前不同的是，“全民dev化”了。除了上面说的数据分析师要解决工具的工程问题以外，还有data scientist，business intelligence engineer，甚至program manager，以及TPM，都在不得已地处理并努力解决各种各样原本应该由SDE（软件开发工程师）去思考和处理的问题。个中原因很简单，技术发展太快，快到维护的工作已经跟不上了。虽然有各种各样的工具，拥有巨大的能量，解决以往根本不敢想象的数据规模下的问题，可以不可思议地提高效率，创建纷繁多样的数据分析结果，但是似乎很多人都忽略了一件事。没有问题的时候，如同平静的湖面波光粼粼，光彩动人。但是一旦出现了许多问题，湖水马上翻脸，波涛汹涌，这些新技术和新工具往往带 ...继续阅读 (51)

四火
发表于
2016-09-15 05:13:39

谈谈月饼事件

最近在程序员圈子内引起热烈讨论的月饼事件的详情在此，阿里巴巴也给出了官方回应，事件本身的大致内容是：阿里巴巴有一些低于市场价的月饼供员工抢购，算是公司福利的一种体现。但是安全相关部门的5位员工写了脚本，利用内部抢购系统漏洞，抢到了超过限制数量的133盒月饼。于是看到了各种各样的声音，有表示公司做得对；有表示公司的处理方式简直不可理喻；也有质疑公司HR的权力之大的。于是讨论就上升到了公司的文化，以及公司的价值观上面。这件事情在互联网上的讨论已经非常充分了。以下是我的几个观点：从公司层面上看，杀一儆百，给其他员工带来的是警示作用。我更相信他们只是为了践行这一点的牺牲品。有点必须绝对“政治正确”的意思。其中尤其要注意其中的一点，这几个人是公司安全相关部门的员工，因此他们更懂得脚本、漏洞这些事情。换言之，这有点像是“反贪部门贪污”，或者是“执法部门违法”。这是这个事件中，角色特殊的方面。在回应中“作为平台规则的捍卫者，使用工具作弊触及了诚信红线”说的也是这一点。然而，公司能从这一举动中带来长远的好处没错，副作用也不可小觑。甚至可以说，负面的影响更甚：死板的公司文化，恐怖的价值观洗脑氛围我一直对那些文化过于强势的公司心有忌惮。原因很简单，且不论对错，而事实上，也很难说对错。价值观本来就是一种态度和观念，哪怕就是自己一个人，今天觉得符合这样这样的标准去做是对的，几年以后，可能又会觉得不对了。因 ...继续阅读 (70)

四火
发表于
2016-09-06 03:12:29

关于奥运会，一点印象和看法

关于禁药风波事实上，在我看来，禁药只是奥运发展到如今畸形生长的一个典型表现而已。如今的奥运，早已偏离了最纯粹的主旨。只有“更快、更高、更强”，但是其他那些好的初衷都已经丢失。禁药的使用永远也不会休止。禁药本身，永远只会是一个比拼科技实力的过程——区别仅仅是因为科技和运气被抓到和不被抓到。从根本上，如果奥运会的规则体制，以及在诸多人心中的地位，在政坛上的价值，这些都无法改变的话，这个问题就是无法解决。与之相关的，我认为那些过于单一依赖于基础身体素质，特别是力量和速度的项目，应该从奥运场馆中废弃。具体来说，是哪些项目呢？比如举重。看看那些练举重的运动员，身体被摧残成什么样子？为了变态地增加力量，先猛长肉，再减重；为了上秤前的减重，强迫身体脱水。再比如短跑。这些项目都有个共同特点，就是形式简单，规则简单，拼的就是纯粹的身体机能，以及对于身体极限的挑战。相较来说，有许多球类运动就有趣得多，比如足球，高个子可以找到自己的位置，矮个子也可以凭借自己的长项争取到自己的一席之地。足球运动员吃禁药，效果也远不及举重和短跑运动员服药有效果。关于奥运金牌的价值很高兴看到越来越多的人意识到，过往那些对于奥运金牌病态的向往，至少源于这样两个因素：根植于内心的自卑。可以说穷家富路，好面子的劣根性。但是这也和中国以前穷惯了有关系。有任何在世界范围内争脸面的事情都愿意参与。于是可以在一定程度上陶醉在狭隘的民族自尊 ...继续阅读 (47)

四火
发表于
2016-08-19 07:28:59

工作流系统的设计

几年前曾经写过一点点对于缓存框架设计的体会，这大半年和工作流系统打交道颇为丰富，因此想总结一点关于工作流系统的设计。首先，明确工作流（workflow）系统的定义。维基百科上有极其简单的介绍。我记得以前在文章里面说过，作为大公司里面的小team，为了做一些有趣的东西，从而更好的招人，通常有几个众人皆知的突破口：比如一个更符合业务需求的storage，再比如一个自定义的工作流系统（workflow）。在Amazon内部，我接触过好多个workflow，而且大多以Amazon SWF为原型（当时学习的时候还写了一点体会，link 1和link 2），于是宏观上看，60%的东西是一样的，大同小异；但是也有很多重要的元素大不相同，而它们被放到一起比较也是常事。几次折腾之后，我也慢慢在思考，如何去设计一个工作流系统，其中都有哪些重要的需要考虑到的方面。Scalability基本上随便设计什么基础设施，扩展性都是重要的考虑内容。作为workflow来讲，基本上工作节点的水平扩展是考量扩展性的最重要标志。既然工作节点可以水平扩展，那么这就意味着任务（task）必须是以pull的方式由工作节点主动去获取，而不是由pull的方式从调度节点来分配（曾经非常简单地比较过pull和push，但其实二者差异远不止文中内容之浅显）。任务的分配上，需要考虑这样的事情：如果有多个工作节点尝试来pull任务，该分配 ...继续阅读 (46)

四火
发表于
2016-07-08 23:54:16

又到一年引援时

去年暑期我曾经评价了一番当时范加尔在任的引援，如今可谓物是人非，从这个冬季没有任何实质意义的引援行动，就估计到范加尔的帅位不稳。事实上，14赛季结束以后，主媒体报端对于范加尔的评价还是不错的。和莫耶斯不同，直到上任两年后，再度丢掉欧冠席位，拿了足总杯草草收场，我依然对于范加尔持有相当程度的支持态度。只可惜这样的成绩显然是难以令多数俱乐部内外人士满意，而其本人“死鸭子嘴硬”，不断要求球迷降低期望的言辞着实令其在别人心目中的印象大为减分。范厨师要做出好菜，自然需要好材料。但是其人对于细节的控制欲望着实强烈，对于成长中的年轻球员还尚能生效，毕竟年轻通常意味着可塑性强；但是对于一些成名的球员，纵观其履历，闹掰的事情实在不足为奇。从弗格森时代的末期，到莫耶斯，范加尔，再到如今的穆里尼奥，我们依次来看一看那些热闹的球员人事变动。从事后的角度来观察，这些经理在球员出入和使用上的功过。香川真司我把香川放在第一条，源于本人对此球员的喜爱。香川的特点太明显，用得好就是一个门前感觉神奇的精灵，用得不好就是个球场上的大漏洞。弗格森把他引进的时候，其实着实令我吃了一惊。并非他不够优秀，他当时拿了德甲最佳，怎么能说不优秀？但问题是，弗格森不会使用前腰，关于这一点，他后来的自传也做了承认和说明。除非这个人在前腰上非常出色，否则不会有他的位置。我们看到曾经的巴西金童安德森，被改造成了后腰；曾经的会耍魔术的贝隆，用 ...继续阅读 (66)

四火
发表于
2016-06-21 05:56:12

写给实习生的第一天

实习生（intern）和新员工有所区别。实习生仿佛一个长达12周（三个月）的面试，一起工作，一起解决问题。在最后有答辩和debrief meeting讨论结果。可能通过了，最后公司给offer；也可能没有通过。即便给了offer，还要面临双向选择，有可能实习生不理offer，继续求学或者去别的公司，当然也可能选择到别的团队。我的习惯是，见面的第一天，这些内容是必须要交代清楚的：1. 近视和远视。你会在接下去的时间里遇到大量的问题，也要去解决大量的问题，有的问题解决会让你获益很长时间，但是大多数问题解决也只是帮助当时的那个你。我们尽量选择一个平衡点，既要为了完成项目，解决那些无趣，但是又必须解决问题；又要多尝试那些好玩，可以令你未来获益的事情。我们也许还能够记得在学校里写软件是怎样的，如果不记得，那也应该记得写那些小工具，甚至写hellow world的感受是怎样的。遗憾的是，和这些感受不同的是，接下去为了要解决问题而绞尽脑汁的烦躁并没有那么美好，大部分时间（80%以上）要做的是各种问题调查，以及operation的工作（configurate、build、deploy等等）。这些往往会无趣，但这却是现实。不过，除了intern必须要完成的项目，还有一些项目是团队里面大家在做的项目可以接触，包括维护的产品，这些东西涉及不同的技术栈，其实蛮有趣的。2. 角色定位。每个mentor的风格 ...继续阅读 (71)

四火
发表于
2016-06-19 16:10:20

保卫萝卜

保卫萝卜是我特别喜欢的一款塔防游戏，其实第一代最好，第二代没那么有吸引力，但是也能玩，前两天保卫萝卜3上线，我彻底失望了。喜欢保卫萝卜1的原因我觉得至少有这么几个：策略型的游戏，可以暂停以后来布置防守，这样就不会把游戏的平衡点放到操作上（要是论操作，那核心游戏性就彻底不同了）；有好多关卡都是设计精妙的，需要思考以后才能过去，有一步策略错误就挂了；收集各种怪物，然后才能解锁各种地图，这个是属于养成元素的；怪物角色和发音都很搞笑。保卫萝卜1的游戏显然更纯粹。简单，上手很容易，什么说明都不需要；但是又不简单，许多关卡是需要仔细思考的。为了无伤，为每一章收集这样的徽章，那就需要绞尽脑汁想策略：还会得到各种怪物蛋：收集这个搞笑的鲸鱼怪物：到了保卫萝卜2，有了“生命星”的概念，这意味着不再可以随便尝试了，要么花钱买，要么花时间等。这个设计的初衷我相信是：要玩家珍惜每一次保卫萝卜的机会；赚钱。这一特性的改变若是还可以说好坏各半的话，那么——为了收益，引入了道具的游戏特性，道具可以每天一次抽奖，也可以花钱购买，这成为了保卫萝卜2最大的败笔。原因在于，这让游戏性大大丢失：本来一关过不去的时候，会缜密思考，应该采用怎样的布防策略，有很多精确的小机关只有触发以后才能通过，这也是游戏最有趣的地方，是游戏吸引人的核心。但是现在有了道具，就不需要那么精确，就不需要那么多思考，过不去的时候，使用道具就可以一定程 ...继续阅读 (63)

四火
发表于
2016-06-11 17:36:53

亲历美国医疗

一直想写稍微写一点关于美国医疗的体验，因为看到过不少报道，也包括很多鸡汤文，都是失实的。医生有家庭医生和专科医生之分。家庭医生（primary care）又叫全科医生，会更密切地跟进你的身体健康状况，什么健康问题都可以寻求他们的帮助，也包括一年一度的体检。一般病人或选择和固定的一个满意的家庭医生，这样熟悉以后双方都对彼此有印象，了解情况会帮助沟通。通常，他们也只是直接解决比较小的问题，大的问题或者疑难病症他们会写推荐信给专科医生。有的保险要求必须有推荐信才可以见专科医生。但是我的保险可以直接预约大部分专科医生，但是，有的专科，比如过敏科就要求必须有推荐信。通常情况下，医院里很安静，基本上医生的服务是需要预约的。因此不会有一堆人排长队的情况。当然，急诊除外。国内的医疗资源由于不合理利用和过度向大城市倾斜，导致大医院人满为患。都说美国医疗贵，可是有多贵？根据疾病的紧急情况，从可预约的诊疗到急诊，价格依次上升。美国的急诊资源非常有限，所以一般情况下，是不会去急诊看病的。去急诊看病通常只有两种情况，一是紧急，二是穷人。没有钱、没有保险，去急诊看病，反正说没钱，就不付账单，通常医生对此是不能拒诊的。因为整个就诊过程不会涉及任何现金交易。因为如果没有钱且没有保险去预约医生看病，是有可能被拒诊的。如果你的病不紧急，有保险，又跑去看急诊，那就等着吧，说不定等上好几个钟头，保险公司还会问你，为啥使用 ...继续阅读 (65)

四火
发表于
2016-05-21 18:48:38

Spark性能优化——和shuffle搏斗

Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如实时性一般不在考虑范围之内，通常我们用Spark来处理的数据，都是要求异步得到结果的数据；再比如数据量一般都很大，要不然也没有必要在集群上操纵这么一个大家伙，等等。事实上，我们都知道没有银弹，但是每一种性能优化场景都有一些特定的“大boss”，通常抓住和解决大boss以后，能解决其中一大部分问题。比如对于portal来说，是页面静态化，对于web service来说，是高并发（当然，这两种可以说并不确切，这只是针对我参与的项目总结的经验而已），而对于Spark来说，这个大boss就是shuffle。首先要明确什么是shuffle。Shuffle指的是从map阶段到reduce阶段转换的时候，即map的output向着reduce的input映射的时候，并非节点一一对应的，即干map工作的slave A，它的输出可能要分散跑到reduce节点A、B、C、D …… X、Y、Z去，就好像shuffle的字面意思“洗牌”一样，这些map的输出数据要打散然后根据新的路由算法（比如对key进行某种has ...继续阅读 (65)

四火
发表于
2016-04-28 05:38:21

记录一种工作流心跳机制的设计

最近工作中一直和SWF（Amazon的Simple Work Flow）打交道，在一个基于SWF的工作流框架上面开发和修bug。SWF的activity超时时间是5分钟，在activity task开始执行以后，activity worker需要主动发送心跳请求告知service端：“我还活着，我还在干活”，如果出现超过5分钟（可以配置）没有心跳，SWF的service端就认为，你已经挂了，我需要把这个activity安排到别的activity worker上来执行了。借用AWS官网的一张图：可以看到，在activity任务启动起来以后，需要用不断的心跳来告知service端任务还在进行，activity worker还活着。这个“汇报”需要activity worker所在的host主动进行，这也是SWF的service端无状态（几年前写过一点东西介绍它）的基本要求之一。任务都是由worker端去pull的，这些行为也都是worker端主动触发的。这个机制描述起来很简单，但是实际在相关设计实现的时候，有许多有趣和值得琢磨的地方。在我手头的这个workflow里面，心跳机制是这样实现的：有两个queue，它们都是dequeue（双端队列），一个是main queue，一个是backup queue，都是用来存放需要发送心跳的activity信息（heartbeatable对象）；每 ...继续阅读 (69)

四火
发表于
2016-04-07 05:56:09

副业？副业才有趣，才精彩

搞副业是要花时间精力的。但是副业的好处在于，不用担心饭碗的问题，不用担心赚钱的问题，一心一意把爱好实践好就好了。开心就多做，不开心了就少做。我觉得只有拥有足够的选择权，人生才能称得上“自由”。我计划今年继续把文章写好，把琴谈好，尽量多去短途旅行，继续追曼联的比赛，争取一场不落。对于这些纷繁复杂的“副业”，只要身体健康，我一点都不觉得疲倦。听到过这样一种说法，你不是xx领域内的专家/权威，就不要发表这一方面的观点。或者用反问句式，你有什么资格xxx。这种万事巨高门槛的风格，扼杀了一批本来有兴趣在这一方面发表见解和热烈讨论的人。最终，这帮人自己最后也不怎么样，因为他们够哪一方面的门槛都够不上，最后泯然众人，只能在网上骂骂人，在饭后扯扯淡而已了。如今无论说什么，只要引发了讨论，一定要有足够坚强的神经，因为搞不清楚哪天就有谩骂铺天盖地而来。成熟的观点不仅少，有时候还容易迂腐，就是要让一群搞副业的讨论才热闹，才有趣。最起码，对诸位大师们，有衬托啊。下面这两个著名的blog，都是副业的产物，很精彩，也令我收获颇丰。而众所周知，写文章赚钱在这个年代并不容易，于是功利是难免的。但是以之为副业就很精彩了，也没有了迎合读者这样的顾虑。阮一峰的网络日志当初朴灵写了一篇文章批评阮一峰文章中的错误时（该评注文章我无法访问了，但是Google上搜索文章标题还能够找到很多拷贝版本，但是阮一峰老师的原文还在，并且 ...继续阅读 (65)

四火
发表于
2016-03-29 05:31:13

生活不止眼前的苟且，还有诗和远方

生活不止眼前的苟且，还有诗和远方的田野。你赤手空拳来到人世间，为找到那片海不顾一切。这就是高晓松写的歌，许巍唱的歌。没有漂亮的修饰，没有华丽效果，始终偏执地保持风格，简单、安静、述说，触动心弦。我记得在十多年前，写过一些文字，祭奠民谣、诗歌和九十年代。如今听到高晓松的歌，如今回忆起故事、欢笑和逝去的时光，在旧有的感怀和失落的同时，还有一丝快慰。九十年代有那么多有理想的音乐人，那些音乐伴着我们一起长大。我们学会了珍惜，学会了倾听，也学会了扬起头，守护心里面那一小点微弱而坚强的信念。因此，我们是幸福的，我们有朴树，无印良品、老狼、Beyond、罗大佑……想想现在的孩子们，这方面他们无疑是不够幸运的，他们只能每天被那些爱来爱去的快餐歌曲如水从双耳倒灌。连情怀和怜悯都已经被拿来赚钱了，长大以后，我们认识这个世界越多，越发现现今自己的可悲。生活变好了，如今的物质条件已经比九十年代好很多。但是我们有营养的思考在变少。生活的妥协越来越多，不由自主也越来越多。大多数时候，我们忙起来就忘记了初衷。多说无益，谨以此短短的文字，给自己一点激励，努力去活出诗和远方的生活。（以下是这首歌的YouTube视频）文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接《四火的唠叨》===================下面是分享到代码=====================分 ...继续阅读 (53)

四火
发表于
2016-03-11 08:38:04

从淘汰Oracle数据库的事情说起

公司搞淘汰Oracle数据库的事情已经搞了好久了，这个事情其实和国内淘宝系搞的去IOE（IBM、Oracle和EMC）是类似的，基本上也是迫不得已，Oracle的维护成本太高，而公司内部基于Oracle数据库的数据仓库，也是问题频出；另一个原因则是scalability。我相信这两个原因许多人都非常清楚。而这个淘汰，也不是简简单单换一个关系数据库，比如把Oracle换成MySQL，或者换到云上（RDS）。而是有明确阶段性地演进，比如替换到DynamoDB这样的NoSQL数据库上面去；或者更彻底地，像我们接触到的某个产品，数据本身换到更廉价的存储S3上去，元数据才存在DynamoDB里，而原本SQL执行的运算的部分用Hadoop或者Spark来完成，这件数据源统一和演进的事情由一个做infrastructure的团队来完成。Oracle数据库要淘汰，而且还看到了NoSQL数据库作为其中的一个替代方案，那是不是说SQL要慢慢淡出历史舞台了？不！因此不仅回答是“不”，还要补充一句——“恰恰相反”，和关系数据库本身不同，SQL不但不会淡出，还要扮演更重要的角色。SQL和编程语言一样，代表的其实是认识世界和描述世界的一种思维方式。比如下面这样的两个例子。第一个，我们组日常都会接触的产品，计算成本和利润的逻辑，使用Scala写的，跑在Spark上面，而随着业务逻辑愈来愈复杂，许多Data An ...继续阅读 (52)

四火
发表于
2016-03-07 05:25:16

Notes: Spark metrics

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.BackgroundThe team use a home made workflow to manage the computation for the cost and profit, and there’s a lack of statistics for the jobs and input/output, usually SDE/oncall checks the data in Data Warehouse or TSV files on S3 manually. For EMR jobs, Spark UI and Ganglia are both powerful but when the clusters are terminated, all these valuable metrics data are gone.Typical use cases:Spark metrics: status / efficiency / executor / GC …EMR clus ...继续阅读 (52)

四火
发表于
2016-02-16 06:22:45

三次性能优化经历

最近在做一些性能优化工作，回想起工作这些年来，参与过的三次集中性能优化，每次都得折腾少则一个月，多则半年。这些内容既是不同视角、不同思路的比较，也是挺有趣的工作经历。Portal的性能优化这已经是大概五年前了，搞了接近半年的Portal性能优化，后来某些内容总结在这篇文章里面。既然是Portal，性能优化上就有它的特点。比如说：Portal的性能优化需要从前端和后端两个角度去思考问题，先考虑客户端和服务端之间的交互模型，然后再在客户端和服务端单独考虑分而治之。这个其实和设计的思路是一样的，交互问题需要首先考虑，定义好交互的报文形式（比如某JSON的具体形式）以后，包括用户触发什么行为引发什么样的数据访问，这些需要首先明确，这样才能对大概的请求模型了然于心。最怕的是那些请求乱七八糟的Portal要做优化，因为业务复杂，然后接口还没有统一，有的地方返回页面片段，有的地方返回一个大页面，有的地方返回一堆脚本，有的地方用JSONP，有的地方有返回纯数据格式。互相之间还有许多重复，这种乱七八糟的客户端和服务端之间的交互，简直就没有设计，不同人开发就不同样，做起优化来简直就是噩梦。在思考view这一层的时候，首先要给它分区，如果是简单的页面，就要给它分类、分块。目的只有一个，抽象出动态变化的部分和静态渲染的部分。有的前端本身解耦做得比较好的，数据和模板已经拆分得很清楚的话，模板是静态的，数据就 ...继续阅读 (53)

四火
发表于
2016-02-11 06:52:03

研发团队的角色和构成

以下都来自我的经历，带有主观评价，但是尽量保持平直的论述。在我工作的第一家公司的时候，一个典型的研发团队是这样组成的。我的经验也只是到4年前，现在也许早就不一样了呢。项目经理，这个角色是不断在换的。项目经理当然是只跟着项目走，这和团队经理（Team Leader）是不一样的。当然，Team Leader也往往在不同的项目里面兼任项目经理。基层的项目经理也可能会编码，但是不管参与不参与编码，工作压力都不小。SE（System Engineer，相当于现在大多数公司的产品经理）负责从市场部门等地方承接需求，然后做“系统性设计”，这个系统多数指的是业务系统，也指有时候软件系统。之前我在一篇文章里面介绍过，同在基层，不同的公司会有不同的角色当老大。比如在腾讯，产品经理是老大；而在我所在的公司，市场部门是老大，研发体系要弱不少。一个项目一般只有1~2个SE。虽然负责业务设计和软件设计，但是SE的出身可以说是鱼龙混杂，有工程师，有测试，甚至有一线维护人员。测试，对于这个角色的争议有不少。早些年测试和开发是分开的，不像后来合作那么紧密。但即便如此，我记得我工作的那段时间，软件版本从开发手里转交到测试手里（所谓版本发布），也算是一件大事，需要过checklist确保没有严重问题，而且是经常需要通宵的。测试人员和开发人员的比例一般说是1:2 ~ 1:3，而且基本上测试的角色在公司相对受轻视，很多测 ...继续阅读 (58)

四火
发表于
2016-02-04 03:10:16

历史，科学，还有艺术

学理的人要读一读历史。遗憾的是，每当我这么说的时候，几乎所有的人都狭义地认为我在讲政治的历史，世界史或者中国史，就如同历史课本里那样。关于这一点，也是时常让我觉得悲哀的地方。我们看到的那么多纪念馆和青铜像，大多是那些因为在政治舞台历史烙印深刻的人物，其次就是久远以前的大文豪们。看看近现代的科学领域、艺术领域、文学领域，这些科学家、艺术家和文人，不知道在年轻人心中有多少分量。仿佛一定要有这样一个英雄，带领一票人闹革命，打下江山，战胜强寇，治理国家，才算伟人；要不就是草根发迹，辗转商海，勇猛创业，才称了不起。剩下的，仿佛只有娱乐明星，甚至网红这样的角色才能引得谈资和热议。如果我问，能不能说出中国历史上的十大英雄豪杰，每个人都有自己的主意；但是如果我说，要举出中国科学进步历史上做出最大贡献的十位学者，要说出这一百年来中国诞生的十位伟大的艺术家，很多人都会卡壳。甚至都不需要限制到某个领域里面，都不需要指定必须是医学、物理、化学，或者是音乐、美术还是文学，这就是我们所有意无意被影响着的畸形的普世价值观。人类的发展，不止要靠信念，还需要智慧；文明要进步，不止要凭热血，也倚仗文艺。这些道理很简单，但是能够影响到很多人生死的关乎政治与斗争的人，总会有更大的影响力。可是，所有的人都在享受着科技与艺术共同进步所带来的美好生活。最近在看一本书《上帝掷骰子吗——量子物理史话》，抛去其中语言刻画上面有些过于 ...继续阅读 (53)

四火
发表于
2016-01-22 02:13:42

沈阳、南京、北京和西雅图

活了快三十年，出生在小小的县城，温和而且充满回忆，读书开始，逐渐接触到城市的生活。真正长驻的城市，就只有题中列的这四个而已，自然印象深刻，如数家珍。这篇文字可以算是《旅行映像》第一部分的文字加强版，只是视角可能有些奇怪，而且思路繁乱，略带流水账性质。沈阳沈阳是我读书时候呆着的城市。在这以前，其实没有大面积接触过北方人（所谓“北方人”其实有诸多定义，比如以长江为分界线的，以秦岭淮河为分界线的，而我一直以黄河作为分界中国南北的标志），但是这一次算是一步登天到东北。沈阳这座城市很漂亮，但是因为留有重工业化的痕迹，空气不算干净。我在沈阳第一次接触了各色烧烤（小时候我哪接触过这东西啊），烤肉、烤蔬菜，自助烧烤。学校在三好街边上，一开始觉得这帮天天折腾电脑的人，而且软硬通吃，应该就是所谓的民间高手了。我们学院成立不久，风气不怎么样，反叛的学生不少。很多老师都是从别的学院借来的，看起来也不怎么爱教，还因为这事儿闹过投诉，闹过罢课。我记得有一次学校要求学生早上六点钟下楼去唱歌做早操，我们都懒散惯了，根本就不可能服管教。第二天早上整层宿舍楼全部门窗紧闭，导员过来挨户敲门也都装不在，就是不开。总的来说大学里面受到的约束很少，这一点我觉得受益良多，和压力山大的中学生活相比，可以有大量的时间做自己喜欢的事情。在沈阳去过世界园艺博览会，周边旅行去过丹东爬凤凰山，去过长春号称寻找中国电影的历史。北方生活的节奏 ...继续阅读 (57)

四火
发表于
2016-01-17 04:44:45

谈谈百度血友病吧被卖事件

最近，百度血友病吧被卖事件炒的沸沸扬扬，在中国互联网这样一个法律和道德双重缺失的环境下，以百度为首的一帮互联网流氓日渐猖狂，但是你很难分辨出到底是哪一出事情的发酵让它已经丧尽天良到如今这种境地。如果你对这样的事情不了解，那么可以看看关于这次事件知乎上的热评，以及百度既往的那些劣迹斑斑的故事，特别是百度全家桶。垄断是罪恶诞生的摇篮，我不会在这里再复述百度作恶的事实，我只想陈述几个观点，有些是可能在热闹的讨论中被忽略掉的。1、我很想知道会有怎样的直接后续，就连国家互联网信息办都约谈百度负责人了，作为响应，可以从回应中看到所谓的“五条阶段性治理措施”，但是，只是说“停止所有病种类吧的商业合作”，换言之，别的贴吧还是可以继续被卖的，你可以想一下，只要不是“xx病吧”，依然是老样子，再想想百度推广，我看不出会因为这件事有任何变化，毕竟，那才是赚黑钱最狠的部门。2、不要只是训斥百度的作恶，法律的建立完善尚存严重的滞后性，特别是在这样类似的事情发生的时候，我们看到了多少惩罚性措施么？对百度这样的企业，造成如此灾难性后果的事情，包括臭名昭著的莆田系的医疗推广（网传高达46%的收入来源），受到了怎样的惩罚呢？这就涉及到作恶成本，无论是法律条文还是政策法规，只要是做了恶，就要付出相应的代价，如果成本太低，这些条文法规都无法起到作用。今天因为这个问题被骂，那好，妥协一下，解决一点眼前问题，换汤不换药，治 ...继续阅读 (51)

四火
发表于
2015-12-21 06:55:27

Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。Data Serialization，默认使用的是Java Serialization，这个程序员最熟悉，但是性能、空间表现都比较差。还有一个选项是Kryo Serialization，更快，压缩率也更高，但是并非支持任意类的序列化。Memory Tuning，Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD，然后放到cache里面去，然后在UI上面看storage的变化；当然也可以使用SizeEstimator来估算。使用-XX:+UseCompressedOops选项可以压缩指针（8字节变成4字节）。在调用collect等等API的时候也要小心——大块数据往内存拷贝的时候心里要清楚。GC调优。打印GC信息：-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps。默认60%的executor内存可以被用来作为RDD的缓存，因此只有40%的内存可以被用来作为对象创建的空间，这一点可以通过设置spark.storage.memoryFraction改变。如果有很多小对象创建，但是这些对象在不完全GC的过程中就可以回收，那么增大Eden区会有一定帮助。如果有任务从HDFS拷贝数据，内存消耗有 ...继续阅读 (69)

四火
发表于
2015-12-16 06:56:59

LeetCode题目解答——第227到310题

LeetCode的题目是不断在更新。还是老规矩，跳过了那些需要付费才能做的题目。下面的解法可能不是最好的，具体问题我们可以讨论。截至目前我解答的全部的LeetCode放在了这里。#TitleAcceptanceDifficulty310Minimum Height Trees24.0%Medium309Best Time to Buy and Sell Stock with Cooldown33.7%Medium307Range Sum Query – Mutable15.5%Medium306Additive Number23.2%Medium304Range Sum Query 2D – Immutable20.3%Medium303Range Sum Query – Immutable23.9%Easy301Remove Invalid Parentheses28.6%Hard300Longest Increasing Subsequence31.8%Medium299Bulls and Cows25.9%Easy297Serialize and Deserialize Binary Tree24.2%Medium295Find Median from Data Stream19.7%Hard292Nim Game50.0%Easy290W ...继续阅读 (82)