辛普森悖论及其哲学思考

什么是辛普森悖论

某个条件下的两组数据,分别讨论时满足某种性质,但合并起来可能导致相反的结论。这就是辛普森悖论。

假设某公司考核员工有个指标叫迟到出错率=(迟到次数+出错次数)/(出勤次数+工作个数),包括出错率和迟到率2个指标。
A员工做了5件重要工作,出错1件;
B员工做了100件很简单的小事情,出错21件。
A员工出勤100次,迟到29次,每次1分钟
B员工出勤10次,迟到9次,每次2小时
则:A员工出错率20%,迟到率29%;B员工出错率21%,迟到率90%,如果分别看出错率和迟到率,A员工明显比B员工优秀。
那么实际情况呢:A员工迟到出错率30/105;B员工迟到出错率30/110,B员工评分高于A员工。
这就是辛普森悖论的典型案例。

为什么会出现辛普森悖论

1、用相对比例(百分比)衡量结果。换句话说,用相对坐标去描述绝对坐标的情况。
常见的例子就是百度Google经常能搜出来的录取比例,女生占比等,比如这篇辛普森悖论:诡异的男女比例以及维基百科的例子。这种例子直接用绝对数值去看就可破解悖论。
2、数据本身是由不同部分构成,而这不同部分的权重可能不同。
第1点说的常见的例子,其实就是将不同结构的权重按 1:1 进行分配的结果(即A学院,B学院)。
我们的案例其实也是这样的,我们做个极端的推理,假设迟到率权重为0,则A员工迟到出错率20%,B员工21%,A员工评分高于B员工。
3、除了构成部分本身权重不同外,不同部分的质量也有区别。
其实,到了这里,我们已经慢慢在接近本质了。那就是:质与量的矛盾。我们身处一个“评价系统”中,自然选择和进化论就是评价的结果。
除了我们熟知的各种数据指标外,还包括我们每一个决策和行为。前者结果非常直观,后者则表现为“命运”。所有的结果都是“物竞天择,适者生存”。这个话题到此为止。

所以,其实这是通过量对质进行评价过程中的三个层次:
第一层:也是最外面的那层,是用相对比例(百分比)表示而造成的结果扭曲;这一层是“显示”出(导致)的错误。
第二层:数据不同构成部分“重要性”(权重)不同而造成的结果扭曲;这一层是未考虑“结构”导致的错误。
第三层:每个构成部分数据本身的“重要性”不同而造成的结果扭曲;这一层是未考虑“内容”导致的错误。

综上,我们可以重新定义一下辛普森悖论:
人们在对事物的评价过程中,未考虑每组数据本身的重要性以及不同部分数据的结构的“权重”,并采用相对指标对结果进行描述而造成的对真实结果的扭曲的一类现象。

再扩展一下,上述定义很重要的两个地方:“人们”和“现象”。
就是说,评价是以人的某种需求为中心的,需求不同,观察到的“现象”亦不同。
这是否让我们想起了薛定谔的那只猫?
另外,是什么让“人”进行“评价”?这个过程究竟是有意识的还是无意识的?

结果应用

简单来说,辛普森悖论告诉我们,任何时候不能简单地根据数据结果而轻易得出一些看似确定的结论。真正的结论需要我们对分析目的进行深入思考,对数据本身进行深入细致地探索研究后才有可能得出。

永远对知识充满敬畏。弱小和无知不是生存的障碍,傲慢才是。

可视化

Simpson’s Paradox