作者:王汉生(北京大学光华管理学院)
今天要跟大家分享的主题叫做:数据江湖,回归5式!
如今啊,大数据时代,群雄割据,天下大乱。各位童鞋,闯荡江湖,凶险难测。没一些必备的看家的本领,就想从数据出发,直达价值的彼岸,恐怕很难。
为此呢,熊大教大家几招防身绝技,叫做:回归5式!简单的说,就是5种最常见的回归模型。这5个招式,看似简单,却是熊大行走江湖的看家本领。回归5式,就如同少林长拳,看似平淡无奇,但是如果辅以深厚的内力,就能威力无比。
所以呀,今天除了要教给大家这回归5式以外,熊大还要跟大家说道说道这内力的修为。没有深厚的内力修为,任何绝妙的功夫,都是花拳绣腿。
好了,闲话少说,先从回归5式开始。
前面我们说了,什么是回归分析?回归分析就是关于XY相关性的分析。那么具体到线性回归,它的主要特征是什么呢?
普通线性回归的主要特征就是:它的因变量必须是连续型数据。什么是连续型数据呀?简单通俗的讲,就是得是连续的。例如:身高、体重、价格、温度都是典型的连续型数据。但是,在实际工作中,由于所有的计算机,实际上都只能存储有限位有效数字,因此,在真实的数据江湖里,不存在严格的连续数据,只有近似的。接下来,我们讨论一下,普通线性回归在数据江湖中,有哪些重要应用?太多了!随便说几个。
先说一个简单刺激的:股票投资。
这里的因变量Y是某只股票或者资产组合的未来收益率。这是一个连续型的因变量。如果我们能够建立Y和一系列X的相关关系,例如X可以是该股票背后企业的财务特征,我们就可以通过X去预测Y,然后通过合理的交易策略,实现超额收益率,俗称:发大财!
其次,再考虑一个关于消费者的案例:客户终身价值。
这里的因变量Y是一个目标客户,从现在开始,到未来无限远时间,所能够给企业创造的收入,经过一定的利率折现到现在的价值。如果我们能够建立Y和一系列X的相关关系,例如X可以是这些消费者的人口统计特征以及过去的消费记录,我就可以通过X去预测Y。这样可以帮助我们识别潜在的高价值客户。
最后,再说一个关乎医疗健康的案例
大家都知道,高血压是一个非常普遍的慢性疾病,是个人或者社保医疗支出中的一大块。而血压这个Y也是一个连续型数据。深刻理解一个人的血压Y,同各种相关因素X(例如:饮食习惯、服药习惯)之间的关系,对于改进健康、降低医疗开支,有重要的意义。
总结一下,在我们通往价值的坎坷道路上,一定会遇到各种各样的数据挑战 。他们中绝大多数,都可以被规范成为回归分析问题。而只要这个问题的Y是连续型数据,那么回归分析第1式“线性回归”,基本能搞定!
如果我的因变量不是连续的怎么办?例如:是0-1型数据。什么是“0-1型数据”?0-1型数据就是说呀,这个数据只可能有两个取值。
例如:性别,只有“男”、“女”两个取值;消费者的购买决策,只有“买”或者“不买”两个取值;病人的癌症诊断,只有“得癌症”或者“不得癌症”两个取值。类似地,大家可以给出很多0-1型数据的例子来。
碰到这种数据挑战的时候,线性回归就不好使了。你需要的是回归分析第2式:0-1回归。0-1回归主要砍的就是0-1型因变量的问题。0-1型的因变量又包含了很多很多的招数,我个人认为,其实大同小异,最常见的有两招就可以了。一招是:逻辑回归,也叫做Logistic Regression;另外一招是:Probit Regression。
具体想学的同学,大家可以去查“广义线性模型”相关的武林秘籍,我就不再这里赘述了。我主要想跟大家分享的是:“0-1回归”是一个非常重要的回归模型,你要不会这招,休想行走数据江湖,永远不可能到达价值的彼岸。
为什么这么说?因为相关的重要应用太多了,咱们说几个时髦有趣的。
第一个例子。现在征信特别火,尤其是互联网征信。
征信是啥?征信就是对某个体的信誉做评估。啥是信誉?就是如果我借钱给你,你按时还钱的概率有多大?所以,对于这个业务而言,因变量就是一个借款人是否会还钱。而0-1回归的主要使命,就是评价该借款人未来还钱的可能性。是一个介于0和1之间的概率。如果产品经理愿意,就可以把这个概率经过一定的单调变换,变成一个具体的征信得分。你看,0-1回归重要不?
再跟大家看一个例子。大家都喜欢网上购物,什么淘宝、京东、天猫啥的。每一次登陆进自己的账户,我们看到了什么?是不是总能看到一些被推荐的商品,“猜你喜欢”,对不?这些商品是怎么被推荐出来的?这个背后啊,也是一个0-1回归的问题。
举个例子,咱先找一堆X1描述消费者的特征(什么性别啦、年龄啦、购物习惯啦等等),然后咱们再找一堆的X2描述商品特征(什么品类呀、价格呀、品牌呀、型号呀等等)。咱把这两堆X放在一起,问一个问题:说您会买吗?Y=0表示不会,Y=1表示会。这就是一个标准的0-1回归问题了。
有了这个模型,我们可以知道:对于什么样的消费者,推荐什么样的商品,会产生什么样的购买概率。然后在所有的待选商品中,挑选概率最大的(例如5个),呈现在您的眼前。这就成就了个性化推荐。
有人说了:“王老师,您说的不对,我们用的模型可不是逻辑回归那么简单,老复杂了。”这个木有问题,真正的工程实践,所用的模型,有可能更简单,也有可能更复杂。但是,都逃离不了0-1回归的本质所在。
最后,再分享一个有趣的例子。现在啊,这社交网络特别火,什么Facebook、Twitter、QQ、微信、微博、陌陌等等。
对于社交平台而言,帮助用户发现好友、建立丰富紧密的好友关系,非常重要。为此啊,几乎所有的社交平台都有“推荐好友”这个功能。这个功能从本质上讲,跟个性化推荐商品一样,也是一个0-1回归的问题。稍微有点区别,可能是,在社交平台上做推荐,我们多了一大类全新的X,就是社交关系。
例如,在我们考虑是否要给张三推荐李四的时候,一个重要的X变量就是“他们之间有多少共同好友”,或者“在张三的关注中,有多少人关注了李四”,这些重要的X变量是根据社交网络的结构推算出来的,对于预测“张三是否会真的关注李四”,帮助巨大。
总结一下,在数据的江湖里,你一定会碰到“0-1数据”的挑战。如果没有0-1回归分析护身,通往价值的道路一定是坎坷无比。
什么是定序回归?就是因变量是定序数据的回归分析。那么,什么又是定序数据呢?定序数据就是关乎顺序的数据,但是又没有具体的数值意义。
考虑一个特别常见的例子。例如,咱公司出一款新的矿泉水,叫做“狗熊山泉,有点不甜”。我想知道消费者对它的喜好程度。因此啊,我决定请人来品尝一下,然后呢,根据他的喜好程度,给出一个打分。1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢。这就是我关心的因变量。
这种数据常见吗?非常常见!有什么特点?
第一、它没有数值意义,不能做任何代数运算。例如,您不能做加法。我不能说:1(很不喜欢)加上一个2(有点不喜欢)居然等于了3(表示一般般)。这显然不对。这就是该数据的第一个特点,没有具体的数值意义。
第二,这个数据的第二个特点是它的顺序很重要。例如:1(很不喜欢)就一定要排在2(有点不喜欢的前面),而2(有点不喜欢)就必须要排在3(一般般的前面)。这个顺序呀,很重要!这就是为什么人们管它叫做“定序数据”。
我们说了,定序数据没有具体的数值意义。因此,我们不能确信:2(有点不喜欢)和1(很不喜欢)的差距,是否正好等于5(超级喜欢)和4(有点喜欢)之间的差距。事实上,基本上不可能相等,因为没那么巧!
既然这些取值之间的间距到底是多少,谁也说不清楚。那么,把很不喜欢定义为Y=1,还是Y=1.5,还是说Y=-3,都无所谓。同样的,如何定义有点不喜欢,也随意。但是只要这个定义,不破坏顺序就可以了。这就是定序数据的核心要义。
定序回归应用的常见的战场有哪些?前面说了,消费者调查,请大家表达自己的偏好。在线下,这就是最普通的市场调研;在线上,就可能是豆瓣上人们对一个电影的打分评级;在医学应用中,有些重要的心理相关的疾病(例如:抑郁症)也会涉及到定序数据。这就是回归分析第三式:定序回归。
什么是计数回归?就是因变量是计数数据的回归分析。那么,什么又是计数数据呢?就是数数的数据。例如,谁家有几个孩子,养了几条狗。
有什么特点?既然是数数,它就必须是非负的整数。不能是负数,说谁家有负3个孩子,没这事。不能是小数,例如说谁家养了1.25只狗,也没这说法。
计数数据在哪些地方常见?例如:客户关系管理中,有一个经典的RFM模型,其中这个F,就是frequency,说的是一定时间内,客户到访的次数。可以是0次,也可以是1次、2次、很多次。但是,不能是-2次,更不能是2.3次。这样清楚吗?
计数数据还出现在医学研究中。一个癌症病人体内肿瘤的个数:0是没有,也可以是1个、2个、或者很多个。
计数数据还出现在社会研究中。例如,二胎政策放开,一对夫妻最后到底如何选择要生育多少个孩子呢?可以是0个、1个,也可以是2个。但是,不能是-2个,也不能是0.7个。
要应对计数型因变量,咱就需要回归分析第4式:计数回归。计数回归也有很多招数。最常见的是泊松回归、负二项回归、零膨胀泊松回归等方法。欲知详情,请参见各路统计学秘籍。
生存回归是生存数据回归的简称。而生存数据回归就是因变量是生存数据的回归分析。什么是生存数据?生存数据就刻画的一个现象或个体,存续生存了多久,也就是我们常说的生存时间。
因此,我们要清晰定义两个东西。一个是出生,一个是死亡。以人的自然出生为出生,以人的自然死亡为死亡,就定义了一个人的寿命,这就是一个典型的生存数据。该数据,对(例如)寿险精算非常重要。
如果以一个电子产品(例如:灯泡)第一次使用为出生,到最后报废为死亡,就决定了产品的使用寿命。
如果以一个消费者的注册成为我家的网站为出生,到某天离我而去,再也不登陆为死亡,这定义了一个消费者的生命周期。
如果,以一个企业的工商注册为出生,到破产注销为死亡,这刻画的是企业的生命周期。
如果,以一个创业团队获得A轮融资为出生,到创业板上市为死亡(请注意呀,这是一个开心的死亡),这刻画的是风险投资回报的周期。
由此可见,生存数据无处不在啊。要分析这种数据,您就需要回归分析第5式:生存回归。这样清楚吗?
诶,且慢。细心的同学一定会问:诶,这听起来生存数据不就是一个连续型的数据吗?为什么不用线性回归呢?咱把数据做一个对数变换,线性回归它就搞不定了吗?啊哈,您可真是问到点子上了。您说的一点都没错,本来啊,线性回归是可以搞定生存数据的,如果生存数据是被精确观察到的。
什么?有可能生存数据没有被精确观测到吗?是的呀,考虑一个具体的例子。
咱以人的寿命为例,我们关心一个问题:一个人是否学习统计学(这个X),是否会影响得到他的寿命(Y)?看,这是一个典型的回归分析问题吧。为此,我们调查了很多数据,隔壁老王不幸被抽中,为此我们想知道老王到底能活多久。
老王今年60,身体倍儿棒,吃饭倍儿香,核心问题是他还没挂呢,我们怎么知道他要活多久呢?咋办呢?要不再等个几十年,等老王挂了,知道他的精确寿命了,咱们再做分析?这怎么能行呢,万一,我先挂了怎么办!谁来做分析?所以,老王的寿命,这个Y到底应该怎么办呢?我们对它不是一无所知,因为他已经虚度春秋60载了,所以,我们知道老王的Y一定比60大。这是一个宝贵的信息。但是,大多少,我不知道。所以,在数据上我们是怎么记录这个事情呢?我们把Y记作60+,看到这个神奇的“+”没。只要一个数据后面跟着一个“+”,这表明真实的数据比这个大,但是,大多少不知道。
这种数据叫什么?这种数据叫作Censored Data,中文被称作截断的数据。
如果,咱们的生存数据,没有任何数据被截断,那么回归分析第1式“线性回归”,基本搞定。但是,真实的生存数据,常常存在大量的被截断现象。在这种情况下,普通线性回归是束手无策的。因此,我们必须技出回归分析第5式:生存回归。
生存回归也有非常多的招式,这是一个很大的学科。其中有两招最常见,一招叫Cox等比例风险模型,第二招叫做AFT加速失效模型。有兴趣的童鞋,请参考相关的武林秘籍。
到此为止呀,我就把熊大看家的本领“回归5式”给大家介绍完了。时间有限,只能跟大家分享基本思想,还有重要的应用场景。具体怎么学,大家需要去翻看相关的统计学秘籍,市场上无穷多。
最后,想跟大家强调一点。仅仅会这回归5式,是不够的。我们前面说如果没有深厚的内力修为,这就是花拳秀腿而已。只有在深厚内力的支撑下,这5式才能助你在数据的江湖里,降妖伏魔。
那么,这神奇的内力是什么呢?听好了啊,这是熊大的绝密,我不告诉别人的。深厚的内力就是对业务或者科学问题的深刻的理解。
所以请记住熊大的名言:要想闯荡数据江湖,您需要:(1)回归5式;(2)深厚的内力。衷心祝愿每一个童鞋,在数据的江湖里,一帆风顺,马到成功。谢谢大家。
如果您对我们的内容感兴趣,请关注微信公众号“狗熊会”,或扫描下方二维码
您可能也喜欢: | ||||
极简 Spark 入门笔记——安装和第一个回归程序 |
分组最小角回归算法(group LARS) |
使用回归分析,样本过少时不妨好先作图看看 |
从搜索序列文本看高端商务车 |
用局部加权回归散点平滑法观察二维变量之间的关系 |
无觅 |