辛普森悖论(Simpson's Paradox)是一种在概率和统计学中出现的现象,指在分组数据中观察到的趋势,在将这些组合并后可能会消失或反转。这种看似矛盾的结果并非统计错误,而是由于未考虑的混淆变量或各组之间样本大小的显著差异所导致。当一个潜在变量对分组数据中的两个变量都产生影响,并且该变量在不同组中的分布不均匀时,就容易发生辛普森悖论。因此,在进行数据分析和决策时,仅仅查看总体数据趋势可能具有误导性,必须深入探究子组数据,并识别和控制潜在的混淆因素,才能得出准确的结论。
辛普森悖论(Simpson's Paradox)是一种在概率和统计学中出现的现象,指在分组数据中观察到的趋势,在将这些组合并后可能会消失或反转。这种看似矛盾的结果并非统计错误,而是由于未考虑的混淆变量或各组之间样本大小的显著差异所导致。当一个潜在变量对分组数据中的两个变量都产生影响,并且该变量在不同组中的分布不均匀时,就容易发生辛普森悖论。因此,在进行数据分析和决策时,仅仅查看总体数据趋势可能具有误导性,必须深入探究子组数据,并识别和控制潜在的混淆因素,才能得出准确的结论。
案例一:大学录取率 某大学的总体录取数据显示,男性申请者的录取率高于女性。然而,当按学院(例如,工程学院和文学院)分别分析录取数据时,会发现女性在大多数学院的录取率都高于男性。这是因为女性倾向于申请录取率较低的学院,而男性则倾向于申请录取率较高的学院,导致在总体数据上出现了对女性不利的假象。
案例二:药物治疗效果 一项关于两种药物治疗肾结石效果的研究显示,在总体数据上,药物A的治愈率低于药物B。但当根据结石大小(小结石和大结石)对患者进行分组后,发现无论是小结石患者还是大结石患者,药物A的治愈率都高于药物B。这是因为药物A更多地用于治疗大结石患者(治愈率普遍较低),而药物B更多地用于治疗小结石患者(治愈率普遍较高),从而在总体数据上掩盖了药物A的真实疗效。
Analogy 帮助你在阅读和思考时发现知识之间的隐藏联系
让旧知识在阅读或创作时自然出现,不再被遗忘在笔记深处
浏览网页时自动唤醒知识库中的相关笔记,形成知识回路
写作时发现笔记之间的隐藏联系,激发创意灵感
让你瞬间对接到过去的思考,实现知识复利增长
安装 Chrome 扩展,连接你的 Notion 笔记库,开启知识觉醒之旅