预计阅读时间：4分钟5秒

心智理论中的他者如何被建模

计算建模将他者彻底降维成带固定偏好权重的决策器，算法能精准预测下一步动作，却完全抹杀了人在真实社交中会因一句话就临时改变主意的动态心智。

可能包含AI生成内容

他心推断依赖日常直觉的默认模式

我们在街上看到一个人突然停下脚步抬头张望，通常会直接认为他在找路牌或者等朋友。这种判断几乎不需要停顿。大脑把视觉输入转化为对他者意图的推测，整个过程快得像条件反射。

认知科学把这种能力称为心智理论。它不是一套经过训练的推理规则，而是人类在进化中形成的默认机制。婴儿在九个月左右开始跟随他人的视线方向，四岁左右能够通过错误信念任务。这些发育节点表明，推断他人心理状态是神经系统的内置功能。

这种内置功能处理简单社交足够用。

但日常直觉的运作高度依赖熟悉的环境线索。邻居买菜时挑拣西红柿的动作，我们一眼就能看出他对新鲜度的要求。因为场景可预测，对方的目标也和我们高度重合。直觉在这种情境下几乎不会出错。

一旦脱离熟悉语境，直觉的可靠性就会下降。面对文化背景完全不同的陌生人，或者处于利益冲突的谈判桌前，我们习惯性的猜测经常偏离实际。直觉给出的答案往往是我们自己愿望的投射。这迫使人去追问，推断他心到底依靠什么更可靠的依据。

早期的研究者试图记录这些直觉失效的瞬间。他们发现，当信息量过载或情绪卷入过高时，大脑会放弃直觉判断。人们开始寻找更系统的解释工具。

哲学传统将推断转化为逻辑论证的尝试

早期哲学家试图用严密的逻辑链条替代直觉。他们不满足于“我觉得他是这么想的”这种模糊表述，而是要求给出可验证的推理步骤。

约翰·斯图尔特·密尔在十九世纪提出类比论证。他的思路很直接。我知道自己的身体动作和心理状态是一一对应的。当我看到另一个人做出和我相似的动作时，根据类比原则，可以合理推断他背后也有相似的心理状态。这个推论听起来很稳固。

它却建立在极其脆弱的前提上。类比论证假设他人与我具有完全相同的内在机制。我们永远无法跳出自己的意识去直接核对这一点。论证最终只能证明我自己的经验，无法跨越主体间的鸿沟。

倒不是说密尔的方案毫无价值。它至少确立了一个基本方向，即理解他人需要可陈述的公共规则。哲学界随后开始清理那些无法被第三方检验的私人感觉。

吉尔伯特·赖尔在《心的概念》中指出了这种推理的冗余性。他认为把心理状态当作隐藏在行为背后的神秘原因，本身就是一种范畴错误。行为本身已经足够说明问题。一个微笑不需要背后先有一个“微笑的意图”作为逻辑起点。

赖尔的批评切断了传统哲学对内部实体的执念。他把注意力拉回到可观察的外部表现上。逻辑论证的路径因此发生了转向，从寻找隐藏的因果链条，变成了对公共语言规则的梳理。这种转向为后来的计算化尝试铺平了道路。

计算建模把心智状态拆解为可运算变量

二十世纪后期的认知科学家不再纠结于不可见的实体。他们开始把心智状态当作可以输入公式的参数。行为被视作目标驱动下的最优化结果。

这种思路的核心是逆强化学习。模型不关心对方感觉如何，只关心对方的行为序列。通过观察一系列动作，算法反推出隐藏的价值函数。价值函数代表了对不同结果的偏好权重。计算过程完全排除了主观体验。

克里斯托弗·贝克等人在二零一七年的研究中展示了这套方法的精度。他们构建了贝叶斯逆规划模型，输入观察者的轨迹数据，模型就能准确预测对方下一步的走向。数学工具把模糊的意图猜测变成了概率分布。

这种转化带来一个直接的后果。他者被简化为一个带有特定偏好权重的决策器。所有复杂的社交互动都被压缩成输入与输出的映射关系。模型运行速度极快，且在规则明确的封闭环境里表现优异。

计算路径的优势在于可重复验证。它的代价同样明显。现实中的心理状态从来不是静态的权重表。人在对话中会改变主意，会因为一句玩笑而临时调整目标。纯变量拆解忽略了心智在时间流中的动态生成。当你试图用算法捕捉一个正在犹豫的谈判者时，模型给出的往往是上一个时间点的偏好快照。它无法处理那种尚未成型、只在眼神交换中逐渐浮现的意图。这种滞后性在需要即时反馈的互动中会迅速累积误差。它需要一个更贴近实际交互的修正方案，去填补静态变量与流动经验之间的落差。

模拟理论试图在内部重建他者的运行轨迹

面对静态模型的局限，另一批学者把目光转向了自身的认知系统。他们认为，理解他人不需要外部观察，只需要调用自己的心理机制。

阿尔文·戈德曼在《心智中的模拟》里详细阐述了这一立场。他提出，当我们想要知道别人会怎么做时，大脑会自动把自己的信念和欲望替换成对方的参数。替换完成后，我们让自身的决策机制跑一遍。跑出来的结果就是对他者行为的预测。

这套方案巧妙地避开了逻辑论证的繁琐。它不需要建立复杂的理论库，只需要一套现成的自我模拟程序。神经层面的镜像系统为这种模拟提供了生理基础。看到别人伸手抓杯子，我们大脑中负责抓取的区域也会同步激活。

模拟理论把推断过程变成了内部实验。你不需要知道物理定律，只需要自己试一次。

不过这种内部实验有严格的适用范围。它只在双方心理机制高度同构时有效。面对自闭症谱系的个体，或者持有完全相悖道德观念的人，直接套用自身的运行程序会产生严重偏差。你用自己的价值观去模拟对方的选择，得出的结论往往只是自我投射的翻版。模拟理论在这里撞上了经验的墙壁。

研究者随后开始划定模拟的生效条件。他们发现，只有当双方共享相似的生活经验时，内部投射才能保持较高的准确率。否则，模拟就会退化为自我中心的臆测。

具身交互修正了纯内部推演的局限

纯粹的头脑风暴无法解释日常对话的流畅性。两个人面对面交谈时，并不需要先在脑子里建一个对方模型，再去推算下一句该说什么。

肖恩·加拉格尔和丹·扎哈维在《现象学心智》中将互动视为直接的知觉过程。他们指出，理解他人心智不需要复杂的推断或模拟。对方的表情变化、语气停顿和肢体微调，本身就是心理状态的直接呈现。我们是在互动中实时捕捉这些信号，而不是在幕后进行计算。

这种观点把重心从如何推断移到了如何共处。理解并非发生在个体内部，而是发生于互动双方之间。就像两个人一起搬一件沉重的家具，你不需要推测对方的用力方向，手上的力道和重心的偏移会直接告诉你下一步该怎么配合。

具身路径承认了经验的即时性。它不试图把心理状态抽离出来单独分析，而是把它放回具体的情境里。日常对话中常出现类似的僵局：双方都在拼命猜测对方的真实意图，结果反而越聊越远。停下来直接感受当下的互动节奏，往往比任何分析都能更快打破僵局。

交互视角提供了另一种解释思路。它不否认计算和模拟在某些场景下的作用，但坚持认为那些只是次级补救手段。最原初的理解方式始终是身体与环境的直接耦合。这种耦合在高度协调的场景里运行良好，但在需要保持社交距离的场合也会显得过于侵入。

当物理距离拉大时，直接耦合的通道就被切断。这时候大脑必须重新启用推断工具。

建模策略的有效性取决于交互的具体尺度

回到最初的追问，推断他心到底依靠什么机制。答案并不是某种单一的理论可以垄断的。不同的策略对应着不同的社交距离和任务类型。

当环境规则清晰、目标函数明确时，计算建模最为可靠。自动驾驶系统预测行人的轨迹，不需要知道行人今天心情好不好。算法只需要处理空间位置和时间序列。在这种低情感卷入的场景里，变量拆解的效率最高。

当双方处于高度共情或快速互动的状态时，具身交互占据主导。你不需要模拟对方的神经放电，也不需要列出行为公式。一个眼神的交汇就足以传递意图。身体在场的直接性取代了后台的逻辑演算。

模拟理论则卡在这两者之间。它适用于双方背景相似，但缺乏直接互动条件的情况。你读一本陌生作家的小说，试图揣摩角色的动机。这时候你只能调动自己的经验去填补空白。模拟在这里是必要的妥协。

我个人倾向于认为，这三种方式并不互相排斥。它们更像是一套认知工具箱里的不同器具。认知神经科学中的任务切换范式显示，人在日常对话中频繁切换使用策略，只是自己很少察觉。面对复杂的社交情境，前额叶皮层会自动评估成本与收益。需要精确预测时就调用计算模式，需要快速共鸣时就切换到具身感知。

这套组合策略并非完美无缺。我对这个问题没有定论，但倾向于认为未来的研究需要更多关注策略切换的临界点。当交互情境突然从熟悉转向陌生时，认知系统是如何在毫秒级时间内更换处理工具的。弄清楚这个切换机制，或许能解释为什么我们在某些场合会突然变得迟钝。