洗脸盆
预计阅读时间:3分钟11秒

认知层级模型如何划定策略思考的实际深度

绝对理性推导的博弈终局是0,但人类大脑的认知天花板将策略深度死死卡在第三层以内。绝大多数人只会多想一两步,你算到第五步的精密布局,注定会撞上只走第一步的对手。

可能包含AI生成内容

0
0

策略思考的递归陷阱


我们参与竞争时总习惯往深想。价格战、招标竞价、甚至猜硬币,直觉都指向同一个动作。你想得越远,越能预判对手的落子。


这种直觉很合理。人类天生擅长追踪意图链条。你猜我在猜你。链条理论上可以无限拉长。每一步都建立在前一步的逻辑推演上,形成严密的递进。


但现实经常反向打脸。你算到第五步,对方只走第一步。你的精密布局撞上对方的随机动作,全盘失效。问题不在逻辑本身。


问题出在无限递归没有物理锚点。如果所有参与者都绝对理性,标准博弈论会要求我们无限迭代,直到收敛到纳什均衡。均衡点指所有人都针对他人策略做出最优反应,没有任何单方面改变动机的状态。


人不是数学符号。信息处理能力有硬性天花板。把无限链条强塞给有限大脑,只会触发认知超载。


我倾向于认为,策略深度从来不是主观意愿能决定的。它被某种隐形的生理刻度死死卡住。我们需要找到这把尺。


这把尺不靠逻辑辩论,靠数据切割。认知层级模型就是干这个的。


认知层级模型的形式化切割


模型把思考过程切成离散的台阶。第零层是基准。第一层往上,是对下一层分布的针对性回应。


数学表达很干脆。设策略空间为 ,参与者 的选择为 。第零层参与者 的决策不依赖他人,直接服从均匀分布或简单启发式规则。


第一层参与者观察第零层的概率分布。他们假设对手全在 。最佳反应函数写作 代表最佳反应算子, 是数学期望。


第二层继续叠加。他们知道对手群体里混着 。公式变成 是权重参数,用来校准不同层级的实际比例。


推广到第 层,逻辑不变。每一层只往下推一步。他们不考虑更高层级的人怎么想,只针对低层级的分布做局部最优。


严格说来,这种切割是近似的。真实的人类思维是连续的流变过程。但连续流没法量化,离散台阶能算。近似带来了可操作性。


模型的核心假设只有一条。人们不会无限制地向上迭代。他们会停在某个具体的 值。这个 不是固定的,它服从群体统计分布。


这就把抽象推演变成了可检验的命题。我们只需要看实验数据落在哪个台阶上。


选美博弈中的真实分布


检验这套模型的最好场景是猜数实验。罗丝玛丽·纳格尔在1995年发表的论文中确立了标准范式。规则简单到不需要说明书。


所有人独立写出0到100之间的整数。谁的数字最接近全体平均数的三分之二,谁获胜。


先看特例。如果全员随机选择,期望平均数是50。三分之二是33.3。这是第一层反应。


如果所有人都想到了第一层,大家都写33。新平均数变成33。三分之二是22。这是第二层。


继续推。22的三分之二是14.6。再下一层是9.7。链条无限延伸,最终死死钉在0。这就是纯理性框架下的唯一解。


但实验数据从不往0跑。科林·卡梅拉、特雷·霍和金在2004年的《经济学季刊》上汇总了多轮重复数据。结果高度一致。峰值集中在21到34之间。


换算回模型台阶,大多数人停在 的随机选择者确实存在,比例不高。 及以上的人极少。超过三层的,样本里几乎看不到。


这个分布极其稳定。不管是受过训练的商学院学生,还是普通社区居民,层级比例几乎一样。高学历或受过训练的群体峰值通常显著左移至10至15区间。


停在这里并非因为计算太繁琐,而是受限于推理深度。


不,计算本身很基础。真正卡住进程的,是大脑的临时存储区。


工作记忆的物理边界


存储区就是工作记忆。它负责临时挂起变量,并进行实时演算。容量是生理固定的。


乔治·米勒在1956年提出过经典的“7加减2”容量法则。后续认知科学反复验证,发现真实有效容量更接近4个信息组块。这是尼尔·科万在2001年《行为与脑科学》期刊中通过双任务范式确认的结论。


组块不是数字,是完整的信息单元。递归思考每上一层,就要在脑子里多挂一个嵌套变量。第一层处理对手均值。第二层处理对手处理均值的结果。第三层处理对手处理你处理对手均值的结果。


链条拉长,变量叠加。每个变量都要占用工作记忆的一个独立槽位。同时你还得做乘除,更新期望值,对比收益差。


四五个槽位一旦塞满,系统就开始丢弃旧数据。丢数据不是渐进发生的,是断崖式的。你突然记不清第二层的前提是什么,只能凭模糊印象往下走。


河床里的水流就是这个节奏。河道宽度固定,超过承载量的水会直接漫出去,不会强行压缩。人类大脑的递归深度也一样。工作记忆容量直接决定了 值的物理上限。


大多数人卡在2到3层,不是智力短板,是硬件限制。


这解释了为什么反复练习效果有限。你可以熟悉计算步骤,但扩不宽内存槽。硬件限制软件运行上限。


为什么更高层级反而失效


很多人默认层级越高收益越大。这是一种常见错觉。博弈是双向匹配,不是单人解谜。


你的策略价值,完全取决于它在对手分布中的命中率。如果群体里七成是 ,两成是 ,你强行算到 ,结果就是严重偏离实际。


收益函数写得很直白。 表示收益。当对手策略 集中在低层级时,高层级策略 的收益反而断崖下跌。偏离匹配度越大,衰减越快。


反例很容易复现。后续多项变体实验故意引入大量只选随机数的参与者。结果那些算到第四层的人,最终得分还不如只写33的人。


过度思考在策略互动里是纯损耗。它大量消耗认知资源,却不带来边际回报。你算得越深,离真实对手越远。


实证数据表明,现实中的对手分布始终呈现右偏特征。头部集中在低层级(L0-L2),长尾延伸至高层级。押注头部,注定落空。


划定深度的关键从来不是“我能想多深”,而是“别人停在多浅”。


这要求我们切换计算重心。从向内挖掘转向向外校准。


实际深度的划定法则


回到模型本身。认知层级理论不是用来堆叠逻辑层数的。它是用来做成本收益匹配的。


实际操作只有两步。第一步,快速采样对手的历史选择,拟合出层级概率分布。假设 占15%, 占45%, 占35%, 占5%。


第二步,计算各层最佳反应的加权期望。直接选使期望收益最大的那个 。不需要往上走。算到分布众数对应的层级就停手。


说白了,策略思考的最优深度就是群体分布的峰值。它由对手的认知习惯决定,也由你的工作记忆容量兜底。


我对这个问题的理解可能带有简化色彩,但数据反复支持这个结论。这套法则把博弈从无限递归拉回了有限现实。它承认人类理性的不完美,并利用这种不完美获取实际收益。


我们不需要成为全知推演机。我们只需要比群体平均水平多看半步。半步是优势,两步是脱靶。


工作记忆是硬墙,结合分布数据即可确定最优策略深度,就是实际深度的划定方法。


模型到此为止。剩下的交给具体场景……

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号