Obsidian折腾患者
预计阅读时间:2分钟7秒

p值零点零五惯例是怎么定下来的

p<0.05并非数学定律,而是费希尔为省计算时间随手划定的参考线。它本意是连续证据刻度,却被期刊审稿与软件星号异化为非黑即白的红线,导致毫无关联的变量每二十次实验也会纯靠运气“显著”一次。

可能包含AI生成内容

0
0

零点零五本是田间实验的经验折中


零五这个界限并非数学演算的自然结论。你翻开任何一本统计学教材,都会看到 被标为“显著”,仿佛这是一条刻在自然法则里的分界线。事实是它只是罗纳德·费希尔在二十世纪初处理田间小麦产量数据时,随手划定的一条参考线。


先看一个最小的实验设定。一块试验田对半划分,一半施新肥,一半对照。你想知道新肥是否有效,先把“肥料无用”当作默认假设 。在 成立时,观测到的产量差异 服从已知的概率分布。你拿到实际差异值 ,计算在零假设下出现比它更极端结果的概率。这个概率就是 值。

是零假设下的随机差异变量, 是概率测度。符号的排列只表达一件事: 值衡量的是当前数据与“无效应”假设的偏离程度。偏离越远,概率越低。


费希尔在 1925 年的《研究者的统计方法》里给出了正态分布尾部面积的查表法。他注意到,当差异达到标准差的两倍附近,右侧尾部面积大约落在 0.05。书里原话写得明白,0.05 只是基于两倍标准差的近似值与二十分之一的便利,为方便学术交流划定的经验截断点,并非强制规则。研究者可以根据实际数据密度和实验成本,自行决定何时停止收集样本。


决策框架混淆了证据权重与错误率


你如果只读费希尔的原始论述, 值本身是一个连续的证据刻度。它不要求非黑即白的判断,只提供数据反常的程度。统计学的另一条脉络在同一个时期成型。耶日·奈曼与埃贡·皮尔逊把问题转换成了决策模型。他们引入了第二类错误 ,也就是真实效应存在却被判为无效的风险。为了同时控制第一类错误和第二类错误,必须在实验开始前固定一条行动红线 。数学形式上 值量纲相同,逻辑指向却不同。 是事前设定的错误容忍上限, 值是事后计算的数据反常概率,二者通过大小比较得出决策。费希尔关注的是单次观测给出的证据权重,奈曼和皮尔逊关注的是按此规则重复决策时的长期错误率。工业流水线需要明确的放行或扣留指令。你无法告诉质检员“这批钢材强度不足的概率是 0.048,请自行权衡”。决策系统需要确定性输出,0.05 恰好落在计算成本与错误容忍的交汇区。


这里存在一个广泛流传的误读。很多人认为 设为 0.05,意味着跨线后的结论有 95% 的可靠性。你只需要代入一个具体场景就能看清偏差。假设某种疾病的真实发病率是千分之一,检测手段的假阳性率控制在 5%。你在一千名健康人里筛查,会误判出大约五十个阳性。真实患者只有一个。阳性结果中真正患病的比例远低于百分之五。 只限定零假设为真时拒绝它的频率,它不反推你已经拒绝零假设后原假设为真的概率。


出版惯例与技术限制固化了汇报格式


但学术发表需要统一的汇报格式。


二十世纪的期刊编辑面对海量投稿,没有精力逐篇评估先验分布或第二类错误。固定数值能直接降低审稿成本。早期的 分布表和 分布表通常只印 0.05、0.01、0.001 这几栏。研究者对着表格找临界值,技术限制直接塑造了习惯。现代统计软件输出界面依然保留这套逻辑。连续的概率值被压缩成星号标记。一颗星对应 0.05,两颗对应 0.01。数据分布的真实形态被抹平,报告里往往省略效应量与置信区间,只留下是否越线的单一指标。


随机分布的固有特征抗拒二元切割


你试着把零假设成立时的 值分布画在横轴上。它会呈现严格的均匀分布,密度在整个 0 到 1 区间保持恒定。这意味着,哪怕两个变量毫无关联,你重复一百次独立实验,平均也有五次会掉进 0.05 以下。这不是方法失效,而是随机性的固有特征。你把红线左移,假阳性减少,漏掉的真实效应必然增加。右移则相反。真实世界的效应分布往往像海岸线的潮间带,过渡是渐变的,没有陡峭的断崖。用一刀切的数值去切割连续变量,大量处于中间状态的案例会被强行归入两侧。


学术惯性将连续概率压成单一判决


惯性已经嵌入文献检索与基金评审的日常。


过去几十年的文献库、元分析标准和跨学科比较规则都围绕这条线搭建。打破它需要重建整个交流坐标系。部分医学期刊开始强制要求报告置信区间和样本量计算,心理学领域在预注册试验中尝试引入贝叶斯因子。0.05 最初只是方便制表的折中,后来成了学术生产流程里的通行标记。当连续的概率被压成二元判决,你还能看清数据原本的起伏吗……

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号