在充满随机性的统计世界中,悖论无处不在。这一节介绍一个很有名,但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的;最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部分先介绍这个悖论,再介绍 Holland 和 Rubin 的解释,最后是一些结论。
考虑下面一个简单例子,具体的数字是伪造的。某个学校想研究食堂对于学生体重是否有差异性的影响,尤其关心食堂对于男女学生体重影响是否相同。于是统计学家们收集了如下的数据:学生的性别$G$
;学生在 1963 年 6 月入学时候的体重$X$
;学生在1964年6月放暑假时候的体重$Y$
。
第一个统计学家,采取了一种很简单的方法。如图所示,横轴表示1963年6月入学前的体重$X$
,纵轴表示1964年6月前放假的体重$Y$
。个体上来看,男女入学前和入学后一年体重都会有些变化,男女学生体重的散点图分别用绿色和红色标出。从男女学生生平均体重来看,男生入学前后一年平均体重均是150磅(图中右上角的黑点),女生入学前后一年平均体重均为130磅(图中左下角的黑点)。图中的虚线是对角线$Y=X$
,两个黑点均位于对角线上。因此,第一个统计学家的结论是食堂对于男女学生体重都没有影响,因此对男女学生体重的作用相同。