预计阅读时间：3分钟49秒

证据不足时理论选择的非经验依据

证据永远无法证实理论，它只负责投否决票；相对论取代以太说并非因为新数据出现，而是科学共同体厌倦了不断打补丁，最终凭认知偏好与计算效率完成了选择。

可能包含AI生成内容

经验数据永远无法单独锁定单一理论

1906年皮埃尔·迪昂在《物理学理论的目的与结构》里写下一段冷峻的推论：任何实验检验都不是针对单个假说，而是针对一整组辅助假设。你测量水银柱的升降，你同时依赖热膨胀定律、气压计校准、环境温度恒定假设。数据与理论之间，永远隔着一层无法剥离的辅助网。

威拉德·蒯因在1951年《经验论的两个教条》中把这条线索推到了极限。他提出知识是一张信念之网，经验冲击只在边缘起作用，网的内部可以随意调整。同一个观测结果，完全可以通过修改核心定律、增加特设性假设、或者重新解释仪器误差来容纳。

这意味证据本身不具备排他性。你拿到一组曲线，可以画出抛物线，也可以叠加高阶多项式，两者在现有数据点上完全重合。数学上这叫插值自由，哲学上这就是不充分决定性。

你也许以为，只要数据量足够大，理论就会自动收敛。事实并非如此。新数据往往只排除了少数边缘假说，同时催生出更多变体。科学史里从未出现过“唯一符合所有观测”的理论，只有“目前尚未被证伪且计算成本可接受”的候选。

说白了，经验只提供否决票，不提供确认票。你无法通过正面堆积事实来锁定一个解释，你只能靠不断排除错误来逼近某个暂时站得住脚的版本。

简洁性与解释力并非天然客观

既然证据无法定音，科学家凭什么在多个等价假说里做选择？他们通常掏出两把尺子：结构简洁性与解释力。简洁意味着变量少、公式短、假设不重叠。解释力意味着能覆盖更多现象，能把看似无关的规律归到同一机制下。

这两把尺子听起来客观，拆开看却带着主观底色。迪昂早就指出，物理学的简洁性往往是一种数学审美，而不是自然本身的属性。你偏好线性关系，是因为人脑处理线性模型更省力，而不是因为宇宙偏爱直线。

解释力同样不是自明标准。1977年托马斯·库恩在《必要的张力》里梳理过，科学共同体对“什么算好解释”有隐性共识。牛顿力学把天体运动与地面落体归为同一套引力公式，这在当时是巨大的解释力飞跃。但如果你坚持机械论传统，超距作用反而显得像魔法。

你挑理论，本质上是在挑一套符合自己认知习惯的叙事方式。这里头没有纯粹的逻辑推导，只有对“哪种归类方式更顺手”的集体直觉。

我把这两项标准拆开看，是为了说明它们不是经验事实的副产品，而是先于经验被预设的认知偏好。你接受简洁性，等于你愿意为计算效率买单。你接受解释力，等于你愿意用覆盖广度换取细节精度。两者常常互斥，你只能二选一。

科学史上的理论选择是认知偏好的妥协

回到科学史的具体现场，你会看到理论更替很少是“证据压倒一切”的干净替换。19世纪末的以太漂移实验给出零结果，物理学家没有立刻抛弃以太。他们引入长度收缩假说、局部时间概念、拖拽系数。这套修补方案在数学上完全自洽，直到爱因斯坦提出相对论，才用更少的假设吞下了同样的数据。

相对论胜出的那一刻，证据并没有发生突变。突变的是科学共同体的容忍阈值。他们不再愿意为维持旧范式而不断叠加辅助假设。简洁性终于压倒了历史惯性。

你如果细看这个过程，会发现选择机制始终在经验与非经验之间摆动。拉卡托斯在《科学研究纲领方法论》里用“进步与退化”来刻画这一摆动。一个纲领在进步，是因为它能预测新事实；它在退化，是因为它只能事后修补旧事实。但判断进步与否，依然依赖研究者对“预测价值”的权重分配。

这种权重分配没有先验公式可套。你只能看某个时代的科学实践如何自我校正。哥白尼体系刚提出时比托勒密体系复杂得多，本轮套本轮，计算量更大。它靠的不是简洁，而是天球运动的几何统一感。后来开普勒砍掉圆轨道，引入椭圆，简洁性才跟上来。

理论选择从来不是线性淘汰，而是认知习惯的反复试探。你站在事后看觉得顺理成章，是因为幸存者偏差替你过滤掉了同时代同样合理但未被选中的路径。

认知模型筛选面临同样的证据真空

把视线拉回当代认知科学，你会发现模型构建的困境与物理学如出一辙。研究者面对行为数据、神经影像、反应时记录，试图拼凑心智的运行规则。同一个决策模式，可以用强化学习算法拟合，也可以用贝叶斯推断框架解释，还可以用启发式规则模拟。

数据不足以区分它们。你增加样本量，只能缩小参数误差，不能证明哪个底层机制为真。认知建模者最终靠的是非经验标准：参数可辨识性、计算可追踪性、跨情境泛化能力。这些标准听起来像技术指标，实质上是研究者对“好模型该长什么样”的先验约定。

我倾向于认为，这种约定暴露了人类解释冲动的局限。我们总想把黑箱拆成齿轮，但心智可能根本不以齿轮的方式运转。你强行套用可分解的模块，只是为了让数学推导能落地，而不是因为大脑真的按模块分工。

更麻烦的是，模型越精细，过拟合风险越高。你加一个注意力权重，模型在训练集上表现提升，在新任务上却可能崩溃。你砍掉一个层级，泛化能力变强，但机制解释变得模糊。这里头没有绝对最优，只有权衡。

认知科学家在论文里经常用“奥卡姆剃刀”为简约模型辩护。但剃刀本身不是物理定律，它只是研究者在不确定状态下的止损策略。你选它，是因为你付不起无限假设的试错成本。

对齐方案比较依赖非经验的权重分配

人工智能的价值对齐问题，把不充分决定性推到了工程实践的层面。你给语言模型喂入海量人类偏好数据，它学到的是分布规律，而不是道德原则。同一个安全边界，可以通过强化学习奖励函数实现，可以通过宪法式规则约束实现，也可以通过多层级监督微调实现。

经验评测指标在这里集体失效。模型在标准基准上分数接近，在长尾场景里的行为却天差地别。你无法用测试集证明某个对齐方案“更安全”，你只能比较它们在未知情境下的失效模式。

比较依据又回到了非经验领域。你倾向于选可解释性强的方案，还是选鲁棒性高的方案？前者意味着人类能追踪决策链条，后者意味着系统在分布外仍能保持行为稳定。两者往往冲突。可解释性要求透明，透明通常意味着限制容量。鲁棒性要求冗余，冗余通常意味着黑箱化。

2019年斯图尔特·罗素在《兼容人类》里反复强调，对齐的核心不是教机器遵守规则，而是让机器理解人类偏好具有不确定性。这个立场本身就是一个非经验选择。它放弃了对“完美规范”的追求，转而接受持续协商的工程路径。你接受它，是因为你承认人类价值本身就不自洽。

对齐方案的比较，最终变成风险偏好的显影液。你愿意把控制权交给可审计的弱系统，还是把赌注压在自主性强的强系统？没有数据能替你回答，你只能根据自己的容错底线做决定。

理论选择最终指向的是认知主体的自我设定

把物理学史、认知建模与人工智能对齐放在一起看，线索变得清晰。证据不足时的理论选择，从来不是纯粹的认识论问题，而是认知主体的自我定位问题。你选简洁性，等于你承认自己需要可掌控的解释。你选解释力，等于你愿意接受复杂换覆盖。你选可解释的对齐方案，等于你宁可牺牲性能也要保留问责通道。

这些选择背后没有更高的客观标准兜底。它们反映的是人类在面对不可还原的不确定性时，如何划定自己的认知边界。你无法通过堆砌事实绕过这一步，因为事实本身不携带偏好。

这只是我的一种解读，可能过于侧重认知习惯的维度，忽略了制度与资源分配的现实约束。实验室的资金流向、期刊的审稿口味、工程团队的交付压力，都在暗中塑造理论筛选的权重。但这些外部因素依然通过改变研究者的风险承受力，最终落回到认知偏好上。

你也许会觉得，承认非经验标准的主导地位会让科学失去客观性。但反过来看，正是这种坦诚让科学避免了独断。你把偏好摆上台面，接受它可能在未来被推翻，理论才保持可修正的活性。

我们手里没有能一劳永逸裁决理论优劣的尺子，只有不断校准的临时标尺。当你下一次面对两个都能拟合数据、却指向不同世界图景的假说时，你会把砝码放在哪一端。