- +1
绿色果冻豆会导致粉刺?滥用p值引发的统计偏差
文1499字 阅读时间约4分钟
导语:有科学家利用p值证明了在果冻豆中,食用绿色的果冻豆会导致粉刺的产生。你相信这个证明么?今天,小编为读者们带来关于试图证明”绿色果冻豆会导致粉刺”的论述,希望得到对p值更加全面的认识。
彩色的果冻豆,英文名叫Jelly Bean,它在美国是一种非常流行的多味彩色糖果。但是近些年,有人用p值证明了食用绿色果冻豆会导致粉刺,你会相信吗?如果此人接着告诉你,20个颜色的果冻豆中,只有绿色的会导致粉刺,你还会相信吗?
图片来源:www.google.com统计学中有个著名的漫画,讲的就是这样一个故事:有人提出,果冻豆会导致粉刺,而统计学家用p值检验反驳了果冻豆和长粉刺的相关性;接着,她又提出只有某种颜色的果冻豆会导致粉刺,于是统计学家测试了20个颜色的果冻豆,发现只有绿色的果冻豆和长粉刺p值小于公认的阈值0.05,于是得出结论:绿色果冻豆(以下简称糖豆)会导致粉刺!
注释:阈的意思是界限,阈值又叫临界值,是一个效应能够产生的最低值或最高值。
图片来源: https://xkcd.com/882/这个滑稽的故事旨在讽刺一些科学家滥用p值来“证明”一些事物之间本不存在的联系。那么,这个神奇的“万灵药”——p值,到底是什么呢?
我们先来了解一些相关的概念。统计学里的“假设”是指一个可客观验证的说法,比如“吃糖豆会导致粉刺发生”,而“零假设”则和该假设相反,比如“吃糖豆不会导致粉刺发生”。如果零假设(H0)成立的可能性(概率)足够小,我们就可以说,这个实验支撑原假设(H1)。
图片来源:https://deansforimpact.org/content-of-thinking/有了这些定义之后,我们就能很容易理解p值。我们已知原假设H1和它对应的零假设H0,以及一些观测数据D(比如100个人吃糖豆前后,得粉刺的人的数量)。H1假设的p值就是如果零假设 H0成立,那么我们能观测到D的概率,写成P(D|H0),读作“给定H0,D发生的概率”。比如,假定“吃糖豆不会导致粉刺”这个零假设 H0 成立,那么观察到数据D的概率,就是原假设的p值。
这样得到的p值有什么用呢?我们可以想象一下,如果有且只有两个平行的宇宙A和B,宇宙A满足H1,另一个宇宙B满足H0,而如果B宇宙观察到数据D的概率很小,但我们又确实观察到了D,我们就可以说,我们所在的这个宇宙是A。也就是说,p值越小,H0成立的概率就越小,所以H1成立的概率也就越大。
图片来源:tenor.com/view/garfield-thinking-think-get-to-work-gif-12041090在进行实验之前,我们需要定一个阈值,如果计算出的p小于这个值,也就是说H0成立的概率足够小,我们就可以拒绝这个零假设,从而为原假设提供依据。
那么这个p该如何计算呢?我们需要根据D来算出几个相关值:吃糖豆前实验者总体的粉刺平均数μ,以及吃糖豆后样本中实验者的粉刺平均数 x̄ 和标准差SD。假设我们采的样本遵从正态分布,那么很容易计算出p<0.05。
值得注意的是,如果p值大于等于阈值,我们并不能据此推断零假设成立,我们能得出的结论只是零假设也可能成立而已。同时,就算p值小于阈值,我们也不能确定地说原假设成立。
图片来源:unsplash.com/search/photos/surprise回到之前的那个故事,随着越来越多的研究—医药学、仪器学等等,都广泛使用p值作为验证假设的工具,确实出现了很多滥用p值的案例,最常见的就是刚才提到的,由p值小于0.05就推出原假设成立,还有就是像故事里这样硬要从无关观察出有关,而忽略统计学中的固有偏差。
就在今年,一群科学家联名在多本科学杂志中呼吁大家谨慎使用p值,不要墨守成规地把0.05作为“黄金值”,更不要用p值推断零假设成立。本文旨在展示p值的正确使用方法,同时提醒大家,不要理所当然地接受所有的“科学发现”,而应该至少略读一下,它的研究背景是什么,得到的数据到底能不能支撑最终的结论。
喜欢这篇文章吗?欢迎给我们留言,探讨有趣的数学问题,如果你还想看其他的相关内容,也可以向我们提出来哦!(本文原载于“罗博深数学”公众号:LuoboshenMath)
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司