预计阅读时间：2分钟9秒

Z-Score 详解及在数据分析的应用

标准化你的数据并轻松识别异常值

原作者：Leandre Sabourin

让我们先设想一个情境：

你在一次生物考试中得到了 85 的成绩。你可能对这个分数感到满意，也可能不满意——这取决于个人标准（不过在大多数情况下，我认为这是一个相当不错的成绩）。

但问题来了：

你的成绩与班级中的其他同学相比如何？

你的表现是优于大多数人，还是其实处在班级较低水平？

现在有个好消息：你的朋友在数学考试中也得到了 85 分！听起来很棒。但当你们身处不同班级时，这两个 85 分真的具有可比性吗？

也许：

她的数学考试非常困难，因此 85 分可能是全班最高分；
而你的生物成绩 85 分恰好只是班级平均水平。

仅仅观察原始分数，很难量化这种差异。

为了更容易进行比较，我们可以使用 Z-score（Z 分数）。这是统计学中的一个重要指标，它可以帮助我们将某个数据点与其所在样本（例如一个班级）进行比较。

Z-score 简要介绍

Z-score 是一种统计量，用来表示：

一个数据点距离数据集平均值有多少个标准差。

Z-score 本质上描述的是：在一个正态分布中，每个数据点所处的位置。

它可以告诉我们：

你的成绩比平均水平更好还是更差；
是否接近平均值；
在整体分布中的相对位置。

Z-score 的计算方式如下：

其中：

x：数据点的取值
μ：数据集的平均值
σ：标准差

通过该转换，数据会被重新缩放，使其具有：均值=0，标准差=1，这一步称为 标准化（standardization）。

Z-score 的常见用途

Z-score 在统计分析中具有多种重要应用，例如：

概率估计

Z-score 可以用于估计某个数据点在正态分布中出现的概率。

通过将 Z-score 转换为百分位数，或查阅标准正态分布表，可以判断某个数值：

高于某个阈值的概率
或低于某个阈值的概率

假设检验

在统计假设检验中，Z-score 用于判断结果是否具有统计显著性。

通过将样本统计量对应的 Z-score 与临界值进行比较，可以决定：

是否拒绝原假设（null hypothesis）。

数据集比较

Z-score 可以让我们比较来自不同数据集的数据点。

即使这些数据集：

尺度不同
单位不同

标准化之后仍然可以进行直接比较。

识别异常值

Z-score 在检测异常值方面非常有用。

异常值指的是：

与数据集中其余数据差异非常大的数据点。

通常经验规则是：∣Z∣>3

的数据点可能被视为潜在异常值，需要进一步检查。

Z-score 的实际示例

回到最开始的例子：

你和朋友都得到了 85 分。

已知两个班级的数据如下：

生物班：Mean=85，σ=10

数学班：Mean=62，σ=24

利用 Z-score 公式：Z=x−μσ

我们可以计算成绩在各自班级中的位置。

生物班

说明：你的成绩正好位于平均水平。

数学班

这意味着：你的朋友的成绩比班级平均水平高 1.17 个标准差。

因此：

虽然纸面成绩相同，但在各自群体中的排名却不同。

通过分布图，我们可以直观看到：

当成绩为 85 分时，在不同班级中的位置差异。

这种方法有助于理解数据点在整体分布中的相对位置。

另一种应用：识别异常值

Z-score 在检测异常值方面同样非常有效。

异常值是指：

远离整体分布的数据点，它们甚至可能破坏统计分析结果。

在正态分布中通常有以下经验规律：

约 68% 的数据位于 ±1 个标准差范围内
约 95% 位于 ±2 个标准差范围内
约 99.7% 位于 ±3 个标准差范围内

因此，在实际研究或数据分析中，通常将：∣Z∣>3.29

的数据视为异常值，并可能从数据集中移除。

一个异常值示例

假设在调查问卷中提出问题：

“你的年龄是多少？”

如果某位参与者填写：

578 岁

那么这显然是一个异常值（无论是误填还是其他原因）。

不过现实中异常值往往没有这么明显，因此使用 Z-score 可以作为一种经验方法（rule of thumb），帮助我们：

识别异常数据；
决定是否删除；
或进行合理处理，以避免影响统计分析结果。

总结

在本文中，我们介绍了 Z-score 及其多种应用方式。

无论是在：

比较不同分布中的数据，
识别异常值，
还是为更深入的统计分析准备数据，

Z-score 都能够提供清晰且一致的数据标准。

在数据分析流程中使用 Z-score，可以使数据更容易处理与分析。