IT博客汇 | 共轭梯度法计算回归

共轭梯度法计算回归

统计之都发表于 2016-11-23 23:01:54

共轭梯度示意图（图片来源：维基百科）

~~轮回眼~~ 共轭梯度示意图（图片来源：维基百科）

引子

之所以写这篇文章，是因为前几天统计之都的微信群里有同学提了一个问题，想要对一个很大的数据集做回归。然后大家纷纷给出了自己的建议，而我觉得共轭梯度算回归的方法跟这个背景比较契合，所以就正好写成一篇小文，与大家分享一下。

说到算回归，或许大家都会觉得这个问题太过简单了，如果用 $X$ 表示自变量矩阵， $y$ 表示因变量向量，那么回归系数的最小二乘解就是 $\hat{\beta}=(X'X)^{-1}X'y$ 。（本文完）

。

哎等等，别真走啊，我们的主角共轭梯度还没出场呢。前面的这个算系数的公式确实非常简洁、优雅、纯天然、不做作，但要往里面深究的话，还是有很多问题值得挖掘的。

最简单暴力的方法，就是从左向右，依次计算矩阵乘法，矩阵求逆，又一个矩阵乘法，最后是矩阵和向量的乘法。如果你就是这么算的，那么可以先默默地去面壁两分钟了。

更合理的方法，要么是对 $X'X$ 进行 Cholesky 分解，要么是对 $X$ 进行 QR 分解，它们基本上是现在算回归的软件中最常见的方法。关于暴力方法和矩阵分解方法的介绍和对比，可以参见这个B站上的视频。（什么？你问我这么严肃的话题为什么要放B站上？因为大部分时间都是在吐槽啊）

好，刚才去面壁的同学现在应该已经回来了，我们继续。前面这些通过矩阵运算求回归系数的方法，我们可以统称为直接法。叫这个名字，是因为它们都可以在确定数目的步骤内得到最终的结果。而与之相对的，则叫做迭代法，意思是通过不断更新已经得到的结果，来逐渐逼近真实的取值。打个比方，你想要知道一瓶82年的拉菲值多少钱，直接法就是去做调研，原料值多少，品牌值多少，加工费多少，运输费多少……然后加总起来得到最终的定价；而迭代法就是去问酒庄老板，你先随便蒙一个数，然后老板告诉你高了还是低了，反复循环，总能猜个八九不离十。

说到这里，你自然要问了，既然算回归的软件大都是用直接法，为什么还要考虑迭代法？莫非直接法有什么不好的地方？这就说到问题的点子上了。