Z-Score 详解及在数据分析的应用
标准化你的数据并轻松识别异常值
原作者:Leandre Sabourin
让我们先设想一个情境:
你在一次生物考试中得到了 85 的成绩。你可能对这个分数感到满意,也可能不满意——这取决于个人标准(不过在大多数情况下,我认为这是一个相当不错的成绩)。
但问题来了:
你的成绩与班级中的其他同学相比如何?
你的表现是优于大多数人,还是其实处在班级较低水平?
现在有个好消息:你的朋友在数学考试中也得到了 85 分!听起来很棒。但当你们身处不同班级时,这两个 85 分真的具有可比性吗?
也许:
- 她的数学考试非常困难,因此 85 分可能是全班最高分;
- 而你的生物成绩 85 分恰好只是班级平均水平。
仅仅观察原始分数,很难量化这种差异。
为了更容易进行比较,我们可以使用 Z-score(Z 分数)。这是统计学中的一个重要指标,它可以帮助我们将某个数据点与其所在样本(例如一个班级)进行比较。
Z-score 简要介绍
Z-score 是一种统计量,用来表示:
一个数据点距离数据集平均值有多少个标准差。
Z-score 本质上描述的是:在一个正态分布中,每个数据点所处的位置。
它可以告诉我们:
- 你的成绩比平均水平更好还是更差;
- 是否接近平均值;
- 在整体分布中的相对位置。
Z-score 的计算方式如下:
其中:
- x:数据点的取值
- μ:数据集的平均值
- σ:标准差
通过该转换,数据会被重新缩放,使其具有:均值=0,标准差=1,这一步称为 标准化(standardization)。
Z-score 的常见用途
Z-score 在统计分析中具有多种重要应用,例如:
概率估计
Z-score 可以用于估计某个数据点在正态分布中出现的概率。
通过将 Z-score 转换为百分位数,或查阅标准正态分布表,可以判断某个数值:
- 高于某个阈值的概率
- 或低于某个阈值的概率
假设检验
在统计假设检验中,Z-score 用于判断结果是否具有统计显著性。
通过将样本统计量对应的 Z-score 与临界值进行比较,可以决定:
- 是否拒绝原假设(null hypothesis)。
数据集比较
Z-score 可以让我们比较来自不同数据集的数据点。
即使这些数据集:
- 尺度不同
- 单位不同
标准化之后仍然可以进行直接比较。
识别异常值
Z-score 在检测异常值方面非常有用。
异常值指的是:
与数据集中其余数据差异非常大的数据点。
通常经验规则是:∣Z∣>3
的数据点可能被视为潜在异常值,需要进一步检查。
Z-score 的实际示例
回到最开始的例子:
你和朋友都得到了 85 分。
已知两个班级的数据如下:

生物班:Mean=85,σ=10
数学班:Mean=62,σ=24
利用 Z-score 公式:Z=x−μσ
我们可以计算成绩在各自班级中的位置。
生物班

说明:你的成绩正好位于平均水平。
数学班

这意味着:你的朋友的成绩比班级平均水平高 1.17 个标准差。
因此:
虽然纸面成绩相同,但在各自群体中的排名却不同。
通过分布图,我们可以直观看到:

当成绩为 85 分时,在不同班级中的位置差异。
这种方法有助于理解数据点在整体分布中的相对位置。
另一种应用:识别异常值
Z-score 在检测异常值方面同样非常有效。
异常值是指:
远离整体分布的数据点,它们甚至可能破坏统计分析结果。
在正态分布中通常有以下经验规律:
- 约 68% 的数据位于 ±1 个标准差范围内
- 约 95% 位于 ±2 个标准差范围内
- 约 99.7% 位于 ±3 个标准差范围内
因此,在实际研究或数据分析中,通常将:∣Z∣>3.29
的数据视为异常值,并可能从数据集中移除。
一个异常值示例
假设在调查问卷中提出问题:
“你的年龄是多少?”
如果某位参与者填写:
578 岁
那么这显然是一个异常值(无论是误填还是其他原因)。
不过现实中异常值往往没有这么明显,因此使用 Z-score 可以作为一种经验方法(rule of thumb),帮助我们:
- 识别异常数据;
- 决定是否删除;
- 或进行合理处理,以避免影响统计分析结果。
总结
在本文中,我们介绍了 Z-score 及其多种应用方式。
无论是在:
- 比较不同分布中的数据,
- 识别异常值,
- 还是为更深入的统计分析准备数据,
Z-score 都能够提供清晰且一致的数据标准。
在数据分析流程中使用 Z-score,可以使数据更容易处理与分析。