机器学习与算法1.5 —— 三门问题与中心极限定理
第一章内容的最后一节我们轻松一点~
前言
相信诸君对于所谓三门问题早有耳闻,但不妨多看一遍咯。说不定之后让你做选择的时候能赢一个小目标~
本内容很欢乐,很易懂~ 开始吧!强化你的正反馈!
1. 蒙提霍尔问题(又称三门问题)
蒙提霍尔问题是一个基于游戏节目情境的概率难题,展示了我们的直觉有时会如何误导我们对概率的判断。
问题背景
假设你参加一个游戏节目,面前有 三扇门:
- 一扇门后是一辆汽车(这是你想要的奖品)。
- 另外两扇门后各有一只山羊(你不想要的奖品)。
游戏的过程如下:
- 你作为参赛者,先选择其中的一扇门。假设你选择了 门1。
- 主持人蒙提·霍尔(知道每扇门后的物品)接着会打开 另一扇门(例如 门3),并展示出一只山羊。
- 现在,蒙提给你一个选择:坚持最初的选择(门1),或者更换到剩下的一扇门(门2)。
关键问题
你应该怎么选?坚持初选的门,换到另一扇门,还是都一样?
解答
这个问题的答案出乎意料:你应该换门! 原因如下:
- 当你第一次选门时,你有 1/3 的概率选中汽车,有 2/3 的概率选中山羊。
- 如果你最初选择的门后是山羊(发生概率为 2/3),蒙提就会打开另一扇山羊门,因此剩下的门就会是汽车所在的门。=
- 因此,通过换门,你赢得汽车的概率是 2/3,而坚持最初选择赢得汽车的概率仅为 1/3。
总结:
- 坚持最初选择:1/3 的赢率。
- 换门:2/3 的赢率。
这个结果很反直觉,因为我们通常认为每扇门的概率是相等的,但关键在于,蒙提展示山羊的行为改变了概率!
2. 中心极限定理(Central Limit Theorem, CLT)
中心极限定理是统计学中的基本概念。它解释了在某些条件下,样本均值的分布将接近正态分布(钟形分布),即使原始数据的分布并不正态。
定义
中心极限定理指出,如果从任何总体(具有有限均值和方差)中抽取许多固定大小的随机样本,则:
- 样本均值的分布会逐渐接近正态分布(即便原始数据分布不是正态分布)。
- 样本量越大,这种正态分布的近似效果就越好。
CLT 的重要性
中心极限定理允许统计学家利用样本数据对总体均值进行推断,即使总体分布未知或非正态。
举个栗子
假设你有一个非正态分布的总体——比如总体分布非常偏斜。中心极限定理告诉我们:
- 随机从总体中抽取样本(例如样本大小为 n=30n = 30n=30 或更大)
- 计算每个样本的均值,然后
- 将这些样本均值绘制成分布图,
得到的这些样本均值的分布将逐渐趋近于正态分布,尤其是在样本量增加的情况下。
实际意义
- 样本量的重要性:样本量越大,样本均值分布越接近正态分布。
- 未知分布:CLT 让我们在总体分布未知或非正态时,依然可以通过样本均值分布的正态性来应用许多统计方法。
在实际应用中,中心极限定理使得统计学家能够在总体分布未知或非正态的情况下,利用样本均值分布的正态性来构建置信区间和进行假设检验。
蒙提霍尔问题和中心极限定理分别揭示了概率与统计推理的重要性,尤其是重新评估直觉假设和理解样本分布的意义。
评论
目录