预计阅读时间：2分钟39秒

科学模型如何从解释走向预测

现代AI模型早已放弃解释因果，沦为纯粹的数字拟合器；它靠死记历史数据的统计规律骗过验证集，一旦环境突变，因不懂底层物理定律而会迅速崩溃。

可能包含AI生成内容

经典力学将预测视为解释的副产品

科学模型到底该负责把世界讲清楚，还是只负责猜对下一步。

十七世纪的天文学家盯着第谷留下的行星观测数据，发现正圆轨道怎么也套不进去，最后不得不妥协，用椭圆把数据点勉强框住，开普勒的三定律就这么从一堆凌乱的数字里挤了出来，我们总以为他是在寻找宇宙运行的内在规律，可回头去看那三行公式，其实更像是一套精度极高的经验拟合，只不过当时的人还没学会区分“符合数据”和“揭示机制”这两件事，思想史的齿轮就这样转了半圈，留下一个至今还在争论的伏笔。

牛顿接手了这份遗产。《自然哲学的数学原理》出版的时候，欧洲的知识界其实松了口气，因为力学模型第一次把天上和地上的运动塞进同一个微分方程组里，行星的轨迹、炮弹的抛物线、钟摆的周期，全都能从几条公理一步步推演出来，这种推演的诱惑力极大，我们后来几百年都习惯把“模型”当成一套因果链条的推演系统，只要方程写对了，世界该怎么转就该怎么转，预测只是解释的副产品，模型的价值在于它能回答“为什么”，至于它能不能多算出小数点后三位，反倒没那么要紧，拉普拉斯后来甚至设想出一个全知全能的计算者，只要知道某一时刻宇宙中所有粒子的位置和动量，就能把过去和未来的全部运行轨迹算得清清楚楚，这种对确定性的迷恋直接主导了之后两百年的科学研究方向。

统计拟合让预测脱离因果解释

账本越记越厚。

十九世纪的物理学家开始碰壁，热力学和统计物理的兴起让事情起了变化，麦克斯韦和玻尔兹曼发现，要追踪每一颗气体分子的运动轨迹不仅不现实，而且毫无必要，他们干脆放弃了对个体因果的执念，转而用概率分布去描述宏观状态，模型的重心从因果机制推导挪到了数据曲线拟合，只要分布曲线能对上实验数据，中间那些分子到底怎么碰撞的，可以先搁置不管，这种实用主义的转向在当时的哲学争论里挨了不少骂，但它确实好用，后来的气象预报、人口统计、甚至保险精算，全都顺着这条曲线拟合的路子得到了广泛应用，我们开始习惯在数据密度不够的时候，用平滑的数学函数去填坑，预测第一次从因果解释中独立出来，有了自己的账本，皮尔逊在十九世纪末整理出的相关系数公式，干脆把统计相关性和物理因果性拆成了两套独立的记账规则，谁也不欠谁的人情，统计学从此不再需要向物理学证明因果关系。

深度学习以误差最小化替代机制还原

计算能力的暴涨直接越过了人类理解力的护栏。

到了二十一世纪二十年代，神经网络的结构设计初衷其实很朴素，无非是模拟神经元之间的权重调整，可当层数叠到上百、参数量突破千亿的时候，它的运行逻辑早就不是我们熟悉的物理推演了，它不再试图还原事物内部的运行机制，而是直接在海量样本里寻找输入和输出之间的映射关系，就像一台不断自我校准的路由器，不关心数据包里装的是邮件还是视频，只盯着延迟和吞吐量往最优解调参，ImageNet 上的图像分类模型能在一百二十万张图片里准确率达到百分之九十五以上，可拆解权重矩阵后，找不到任何一条能翻译成自然语言的“猫的识别规则”，模型仅致力于优化输入与输出的映射，它不在乎猫为什么有胡须，它只在乎像素排列的统计规律能不能骗过验证集，训练过程仅围绕数值误差的最小化展开，反向传播算法只负责把误差一点点压下去，从来不问压下去的误差背后藏着什么物理意义。

路由器的比方可能有点粗糙，但方向没错。

泛化瓶颈划出了预测与干预的界线

机器学习的预测能力确实强悍，可它一旦走出训练数据的分布区间，泛化能力就会下降，气象学家早就注意到，用深度学习做短期天气推演，前七十二小时的准确率能碾压传统数值模式，一旦拉长到两周，误差就会呈指数级放大，因为模型没有学到大气环流的守恒定律，它只是在历史天气的切片里拟合了统计规律，环境稍微一变，原有的映射关系就会出现偏差，预测和解释在这里划出了一道清晰的界线：你要干预系统，就得知道哪个变量是杠杆；你只做旁观记录，拟合曲线就能应付，朱迪亚·珀尔把这套区分写进了因果推断的阶梯理论里，第一层只看关联，第二层要问干预，第三层才涉及反事实推理，目前的生成模型大多还停留在第一层和第二层的交界处，它们能顺着已有的语料生成流畅的文本，也能根据提示调整输出风格，可一旦要求它们评估一个从未在训练集中出现过的政策干预后果，输出的往往是一串概率最高但逻辑断裂的词组拼接，工程师们只能靠提示词工程和外部知识库进行修正，黑盒模型在分布外泛化测试里频频失分，恰恰印证了预测与推演在认识论上的根本分歧。

我们不必急着给这两条路判高低。

模型是划定认知边界的测量仪器

近代自然哲学留给我们的遗产，其实是一套处理不确定性的方法体系，开普勒的椭圆和牛顿的微积分负责在变量少、机制清的地方建立因果解释，十九世纪的概率统计和二十世纪的算法拟合负责在变量多、机制模糊的地方填补预测空缺，两种方法在各自的适用区间里都能跑得飞快，交叉混用反而容易失效，用因果推演去硬套金融市场的日内波动，或者拿黑盒网络去设计跨海大桥的承重结构，都是把工具用错了场合，思想史走到今天，模型的概念早就不是单一的解释器，也不是纯粹的预言机，它更像是一台不断调整参数的测量仪器，对准机制的时候刻度清晰，对准数据的时候指针灵敏，我们只需要记得，仪器本身不负责构造客观现实，它只是帮我们划定解释性模型与预测性模型的适用边界……