预计阅读时间：2分钟7秒

p值零点零五惯例是怎么定下来的

p<0.05并非数学定律，而是费希尔为省计算时间随手划定的参考线。它本意是连续证据刻度，却被期刊审稿与软件星号异化为非黑即白的红线，导致毫无关联的变量每二十次实验也会纯靠运气“显著”一次。

可能包含AI生成内容

零点零五本是田间实验的经验折中

零五这个界限并非数学演算的自然结论。你翻开任何一本统计学教材，都会看到被标为“显著”，仿佛这是一条刻在自然法则里的分界线。事实是它只是罗纳德·费希尔在二十世纪初处理田间小麦产量数据时，随手划定的一条参考线。

先看一个最小的实验设定。一块试验田对半划分，一半施新肥，一半对照。你想知道新肥是否有效，先把“肥料无用”当作默认假设。在成立时，观测到的产量差异服从已知的概率分布。你拿到实际差异值，计算在零假设下出现比它更极端结果的概率。这个概率就是值。

是零假设下的随机差异变量，是概率测度。符号的排列只表达一件事：值衡量的是当前数据与“无效应”假设的偏离程度。偏离越远，概率越低。

费希尔在 1925 年的《研究者的统计方法》里给出了正态分布尾部面积的查表法。他注意到，当差异达到标准差的两倍附近，右侧尾部面积大约落在 0.05。书里原话写得明白，0.05 只是基于两倍标准差的近似值与二十分之一的便利，为方便学术交流划定的经验截断点，并非强制规则。研究者可以根据实际数据密度和实验成本，自行决定何时停止收集样本。

决策框架混淆了证据权重与错误率

你如果只读费希尔的原始论述，值本身是一个连续的证据刻度。它不要求非黑即白的判断，只提供数据反常的程度。统计学的另一条脉络在同一个时期成型。耶日·奈曼与埃贡·皮尔逊把问题转换成了决策模型。他们引入了第二类错误，也就是真实效应存在却被判为无效的风险。为了同时控制第一类错误和第二类错误，必须在实验开始前固定一条行动红线。数学形式上和值量纲相同，逻辑指向却不同。是事前设定的错误容忍上限，值是事后计算的数据反常概率，二者通过大小比较得出决策。费希尔关注的是单次观测给出的证据权重，奈曼和皮尔逊关注的是按此规则重复决策时的长期错误率。工业流水线需要明确的放行或扣留指令。你无法告诉质检员“这批钢材强度不足的概率是 0.048，请自行权衡”。决策系统需要确定性输出，0.05 恰好落在计算成本与错误容忍的交汇区。

这里存在一个广泛流传的误读。很多人认为设为 0.05，意味着跨线后的结论有 95% 的可靠性。你只需要代入一个具体场景就能看清偏差。假设某种疾病的真实发病率是千分之一，检测手段的假阳性率控制在 5%。你在一千名健康人里筛查，会误判出大约五十个阳性。真实患者只有一个。阳性结果中真正患病的比例远低于百分之五。只限定零假设为真时拒绝它的频率，它不反推你已经拒绝零假设后原假设为真的概率。

出版惯例与技术限制固化了汇报格式

但学术发表需要统一的汇报格式。

二十世纪的期刊编辑面对海量投稿，没有精力逐篇评估先验分布或第二类错误。固定数值能直接降低审稿成本。早期的分布表和分布表通常只印 0.05、0.01、0.001 这几栏。研究者对着表格找临界值，技术限制直接塑造了习惯。现代统计软件输出界面依然保留这套逻辑。连续的概率值被压缩成星号标记。一颗星对应 0.05，两颗对应 0.01。数据分布的真实形态被抹平，报告里往往省略效应量与置信区间，只留下是否越线的单一指标。

随机分布的固有特征抗拒二元切割

你试着把零假设成立时的值分布画在横轴上。它会呈现严格的均匀分布，密度在整个 0 到 1 区间保持恒定。这意味着，哪怕两个变量毫无关联，你重复一百次独立实验，平均也有五次会掉进 0.05 以下。这不是方法失效，而是随机性的固有特征。你把红线左移，假阳性减少，漏掉的真实效应必然增加。右移则相反。真实世界的效应分布往往像海岸线的潮间带，过渡是渐变的，没有陡峭的断崖。用一刀切的数值去切割连续变量，大量处于中间状态的案例会被强行归入两侧。

学术惯性将连续概率压成单一判决

惯性已经嵌入文献检索与基金评审的日常。

过去几十年的文献库、元分析标准和跨学科比较规则都围绕这条线搭建。打破它需要重建整个交流坐标系。部分医学期刊开始强制要求报告置信区间和样本量计算，心理学领域在预注册试验中尝试引入贝叶斯因子。0.05 最初只是方便制表的折中，后来成了学术生产流程里的通行标记。当连续的概率被压成二元判决，你还能看清数据原本的起伏吗……