今天的这个天气,是对大家的一种考验,也是对大家对R的热情和数据挖掘这一个领域的一种挑战或考验,很高兴祝贺大家通过了这个考验。这是我第一次讲话不用ppt,因为此前我讲过很多次了,只是以一种不同的身份、以学术研究的语言与同行交流。但今天我的身份稍微一转换——代表淘宝IT的阿里巴巴数据系统产品部。我们的副总裁车品觉老师,他最近写了一本书叫《决战大数据》,本来是想请他来,但是由于时间的冲突,所以我今天就来上台。我也很愿意做这样一件事情,因为我的背景——我是统计出身。R语言的伟大之处在于它是统计学家创造的,但是后面一句话大家肯定也知道,它最糟糕的地方也就是“它是统计学家创造的”。那么我一会儿讲一下我的三个经历,给大家分享一下这两句话的含义。最后我再解释今天我希望大家从这个会场得到怎么样的message(信息)。
20年前,如果你问我一个函数、一个分布是一个怎么样的性质,我会拿支笔来,用吉米多维奇里面的微积分的方式,用PDF、CDF(密度函数、分布函数)来推。那么今天我可能会啪啪啪写一个R的function(函数),然后simulate(模拟)一下就出来了。那效果来说,可能是今天的会更高效,对吧,当然20年前的能力也是需要的。