预计阅读时间：2分钟14秒

P值在频率学派里到底衡量什么

P值根本不衡量原假设为真的概率，它只是“假设原假设成立时出现极端数据的概率”。只要样本量足够大，哪怕实际效应微乎其微，P值也会被强行判定为显著，因此它并非效应强度指标，而是样本规模与随机波动的混合体。

可能包含AI生成内容

频率学派仅将P值视为条件概率

P值在频率学派里并不衡量原假设成真的概率，它只负责给出一个条件概率的刻度。

假设检验的起手式是设定一个原假设，通常代表“效应为零”或“观测差异纯粹来自随机抽样”。我们在实验中算出某个统计量，记实际观测值为。P值的数学表达是。竖线右侧的是前提条件，意思是假定原假设成立，并且我们可以在相同条件下无限次重复实验，那么出现当前观测值，或者比它更偏离零点的极端值的概率，就是P值。

这个数值算出来之后，通常会被直接和0.05做比较，但比较之前，得先看清它到底在衡量什么。

直觉常将P值错置为假设成立概率

把条件反过来，写成，需要引入先验分布和贝叶斯定理，而频率学派从一开始就拒绝给未知参数分配先验概率。数学上，和只有在特定条件下才相等，绝大多数现实场景里两者相差巨大。讲真，混淆这两者就像把“如果硬币均匀，连续抛十次全正面的概率极低”的命题，倒过来当成“连续抛十次全正面，说明硬币极大概率不均匀”的断言。前者是抽样分布的尾部面积，后者是参数后验分布的重心位置，频率学派的计算只覆盖前者。

拿到一份试验报告，看到两组差异对应的P值为0.01，直觉往往会把0.01直接换算成99%的置信度。频率学派实际给出的意思是：假如两组完全等效，我们重复一百次完全相同的抽样流程，大概会有一次因为随机波动，恰好看到当前这么大的组间差距，甚至更大。这层语义转换一旦跳过，后续的推论就会偏离原本的设计轨道。

样本量扩大必然压低P值的数值

这种错置在样本量发生变化时会暴露得更彻底。

我们回到正态总体均值检验的具体推导。方差已知时，检验统计量是标准Z值，。分子是样本均值与假设均值的距离，分母是标准误。当样本量从一百增加到一万时，分母缩小十倍。只要与之间存在哪怕0.01个标准差的微小偏离，Z值也会被线性放大。原本P值约在0.46左右徘徊，样本量扩大后，P值会降至约0.16。数据没变，效应没变，只是测量点更密集，统计检验却给出了“极其显著”的判决。这不是计算误差，而是标准误随样本量减小的数学性质在假设检验里的直接体现。

只要真实均值哪怕偏离零点一个极小的量，统计量的分布曲线就会不断平移，最终把尾部面积压到接近零。

P值同时携带了样本规模和随机波动的信息，它不是一个独立于的效应强度指标。研究者如果只盯着预设的显著性线，而不看置信区间或效应量估计值，数据给出的信号就会失去参照系。

多重检验会指数级放大假阳性风险

换个角度，多重检验的场景会把这个问题推得更远。

假设我们在同一批数据里检验二十个相互独立的指标，每个指标的拒绝阈值都设在0.05。按照概率运算，所有检验都不犯第一类错误的概率是，计算结果大约是0.36。反过来，至少出现一次假阳性的概率接近0.64。原本用来控制单次判断风险的阈值，在多次重复调用后，会像滚雪球一样放大整体犯错的可能。

为了压住这种膨胀，统计学里引入了校正方法，比如Bonferroni校正，直接把阈值除以检验次数，变成。思路是用更窄的拒绝域换取整体错误率的控制。但校正本身并不依赖独立性，而是基于布尔不等式对任意相关性均成立。只是面对基因表达量之间、宏观经济指标之间复杂的协方差结构时，这种无条件的严格会因过于保守而降低检验功效。直接套用该阈值，往往会在过度过滤和漏报之间摇摆不定。

P值仅是限定条件下的兼容性度量

P值在频率学派体系里的位置，其实一直被限定得很窄。它只是一个兼容性度量工具。某项三期临床试验的统计师在审阅报告时，用它来判断当前观测到的数据，和原假设所描绘的随机世界，到底有多大冲突。冲突大到0.05的预设程度，统计团队就暂时搁置原假设，转向备择假设。这个过程不涉及真理的宣判，也不提供效应大小的刻度，它只是把观测值放到原假设生成的概率分布里，量一下落在尾部的位置。

把这些计算放回它们原本的条件概率坐标系，很多争议自然就失去了讨论基础。样本量膨胀带来的极小数值，多重比较引发的假阳性堆积，都不是统计量本身的逻辑漏洞，而是使用者越过了它预设的适用条件。频率学派的设计初衷，本来就不是为了回答“假设有多大概率成立”，而是为了给出一个在重复抽样下可控的决策规则。

下次看到论文表格里粗体标出的，视线可以顺着那条显著性标记往下移半行。通常那里会并列着置信区间的上下限，或者效应量的点估计值。数字并排印在一起，对照着看，才能看出随机波动和真实效应各自的轮廓。