偶是大橘子哇
预计阅读时间:2分钟9秒

Z-Score 详解及在数据分析的应用

标准化你的数据并轻松识别异常值

1
0

原作者:Leandre Sabourin


让我们先设想一个情境:

你在一次生物考试中得到了 85 的成绩。你可能对这个分数感到满意,也可能不满意——这取决于个人标准(不过在大多数情况下,我认为这是一个相当不错的成绩)。

但问题来了:

你的成绩与班级中的其他同学相比如何?

你的表现是优于大多数人,还是其实处在班级较低水平?

现在有个好消息:你的朋友在数学考试中也得到了 85 分!听起来很棒。但当你们身处不同班级时,这两个 85 分真的具有可比性吗?

也许:

  • 她的数学考试非常困难,因此 85 分可能是全班最高分;
  • 而你的生物成绩 85 分恰好只是班级平均水平。

仅仅观察原始分数,很难量化这种差异。

为了更容易进行比较,我们可以使用 Z-score(Z 分数)。这是统计学中的一个重要指标,它可以帮助我们将某个数据点与其所在样本(例如一个班级)进行比较。


Z-score 简要介绍

Z-score 是一种统计量,用来表示:

一个数据点距离数据集平均值有多少个标准差。

Z-score 本质上描述的是:在一个正态分布中,每个数据点所处的位置。


它可以告诉我们:

  • 你的成绩比平均水平更好还是更差;
  • 是否接近平均值;
  • 在整体分布中的相对位置。

Z-score 的计算方式如下:

其中:

  • x:数据点的取值
  • μ:数据集的平均值
  • σ:标准差

通过该转换,数据会被重新缩放,使其具有:均值=0,标准差=1,这一步称为 标准化(standardization)


Z-score 的常见用途

Z-score 在统计分析中具有多种重要应用,例如:


概率估计

Z-score 可以用于估计某个数据点在正态分布中出现的概率。

通过将 Z-score 转换为百分位数,或查阅标准正态分布表,可以判断某个数值:

  • 高于某个阈值的概率
  • 或低于某个阈值的概率


假设检验

在统计假设检验中,Z-score 用于判断结果是否具有统计显著性。

通过将样本统计量对应的 Z-score 与临界值进行比较,可以决定:

  • 是否拒绝原假设(null hypothesis)。


数据集比较

Z-score 可以让我们比较来自不同数据集的数据点。

即使这些数据集:

  • 尺度不同
  • 单位不同

标准化之后仍然可以进行直接比较。


识别异常值

Z-score 在检测异常值方面非常有用。

异常值指的是:

与数据集中其余数据差异非常大的数据点。

通常经验规则是:∣Z∣>3

的数据点可能被视为潜在异常值,需要进一步检查。


Z-score 的实际示例

回到最开始的例子:

你和朋友都得到了 85 分

已知两个班级的数据如下:

image.png


生物班:Mean=85,σ=10

数学班:Mean=62,σ=24


利用 Z-score 公式:Z=x−μσ

我们可以计算成绩在各自班级中的位置。


生物班

image.png

说明:你的成绩正好位于平均水平。


数学班

image.png

这意味着:你的朋友的成绩比班级平均水平高 1.17 个标准差

因此:

虽然纸面成绩相同,但在各自群体中的排名却不同。


通过分布图,我们可以直观看到:

image.png

当成绩为 85 分时,在不同班级中的位置差异。

这种方法有助于理解数据点在整体分布中的相对位置。


另一种应用:识别异常值

Z-score 在检测异常值方面同样非常有效。

异常值是指:

远离整体分布的数据点,它们甚至可能破坏统计分析结果。

在正态分布中通常有以下经验规律:

  • 约 68% 的数据位于 ±1 个标准差范围内
  • 约 95% 位于 ±2 个标准差范围内
  • 约 99.7% 位于 ±3 个标准差范围内

因此,在实际研究或数据分析中,通常将:∣Z∣>3.29

的数据视为异常值,并可能从数据集中移除。


一个异常值示例

假设在调查问卷中提出问题:

“你的年龄是多少?”

如果某位参与者填写:

578 岁

那么这显然是一个异常值(无论是误填还是其他原因)。

不过现实中异常值往往没有这么明显,因此使用 Z-score 可以作为一种经验方法(rule of thumb),帮助我们:

  • 识别异常数据;
  • 决定是否删除;
  • 或进行合理处理,以避免影响统计分析结果。


总结

在本文中,我们介绍了 Z-score 及其多种应用方式。

无论是在:

  • 比较不同分布中的数据,
  • 识别异常值,
  • 还是为更深入的统计分析准备数据,

Z-score 都能够提供清晰且一致的数据标准。

在数据分析流程中使用 Z-score,可以使数据更容易处理与分析。

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号