证据不足时理论选择的非经验依据
证据永远无法证实理论,它只负责投否决票;相对论取代以太说并非因为新数据出现,而是科学共同体厌倦了不断打补丁,最终凭认知偏好与计算效率完成了选择。
可能包含AI生成内容
经验数据永远无法单独锁定单一理论
1906年皮埃尔·迪昂在《物理学理论的目的与结构》里写下一段冷峻的推论:任何实验检验都不是针对单个假说,而是针对一整组辅助假设。你测量水银柱的升降,你同时依赖热膨胀定律、气压计校准、环境温度恒定假设。数据与理论之间,永远隔着一层无法剥离的辅助网。
威拉德·蒯因在1951年《经验论的两个教条》中把这条线索推到了极限。他提出知识是一张信念之网,经验冲击只在边缘起作用,网的内部可以随意调整。同一个观测结果,完全可以通过修改核心定律、增加特设性假设、或者重新解释仪器误差来容纳。
这意味证据本身不具备排他性。你拿到一组曲线,可以画出抛物线,也可以叠加高阶多项式,两者在现有数据点上完全重合。数学上这叫插值自由,哲学上这就是不充分决定性。
你也许以为,只要数据量足够大,理论就会自动收敛。事实并非如此。新数据往往只排除了少数边缘假说,同时催生出更多变体。科学史里从未出现过“唯一符合所有观测”的理论,只有“目前尚未被证伪且计算成本可接受”的候选。
说白了,经验只提供否决票,不提供确认票。你无法通过正面堆积事实来锁定一个解释,你只能靠不断排除错误来逼近某个暂时站得住脚的版本。
简洁性与解释力并非天然客观
既然证据无法定音,科学家凭什么在多个等价假说里做选择?他们通常掏出两把尺子:结构简洁性与解释力。简洁意味着变量少、公式短、假设不重叠。解释力意味着能覆盖更多现象,能把看似无关的规律归到同一机制下。
这两把尺子听起来客观,拆开看却带着主观底色。迪昂早就指出,物理学的简洁性往往是一种数学审美,而不是自然本身的属性。你偏好线性关系,是因为人脑处理线性模型更省力,而不是因为宇宙偏爱直线。
解释力同样不是自明标准。1977年托马斯·库恩在《必要的张力》里梳理过,科学共同体对“什么算好解释”有隐性共识。牛顿力学把天体运动与地面落体归为同一套引力公式,这在当时是巨大的解释力飞跃。但如果你坚持机械论传统,超距作用反而显得像魔法。
你挑理论,本质上是在挑一套符合自己认知习惯的叙事方式。这里头没有纯粹的逻辑推导,只有对“哪种归类方式更顺手”的集体直觉。
我把这两项标准拆开看,是为了说明它们不是经验事实的副产品,而是先于经验被预设的认知偏好。你接受简洁性,等于你愿意为计算效率买单。你接受解释力,等于你愿意用覆盖广度换取细节精度。两者常常互斥,你只能二选一。
科学史上的理论选择是认知偏好的妥协
回到科学史的具体现场,你会看到理论更替很少是“证据压倒一切”的干净替换。19世纪末的以太漂移实验给出零结果,物理学家没有立刻抛弃以太。他们引入长度收缩假说、局部时间概念、拖拽系数。这套修补方案在数学上完全自洽,直到爱因斯坦提出相对论,才用更少的假设吞下了同样的数据。
相对论胜出的那一刻,证据并没有发生突变。突变的是科学共同体的容忍阈值。他们不再愿意为维持旧范式而不断叠加辅助假设。简洁性终于压倒了历史惯性。
你如果细看这个过程,会发现选择机制始终在经验与非经验之间摆动。拉卡托斯在《科学研究纲领方法论》里用“进步与退化”来刻画这一摆动。一个纲领在进步,是因为它能预测新事实;它在退化,是因为它只能事后修补旧事实。但判断进步与否,依然依赖研究者对“预测价值”的权重分配。
这种权重分配没有先验公式可套。你只能看某个时代的科学实践如何自我校正。哥白尼体系刚提出时比托勒密体系复杂得多,本轮套本轮,计算量更大。它靠的不是简洁,而是天球运动的几何统一感。后来开普勒砍掉圆轨道,引入椭圆,简洁性才跟上来。
理论选择从来不是线性淘汰,而是认知习惯的反复试探。你站在事后看觉得顺理成章,是因为幸存者偏差替你过滤掉了同时代同样合理但未被选中的路径。
认知模型筛选面临同样的证据真空
把视线拉回当代认知科学,你会发现模型构建的困境与物理学如出一辙。研究者面对行为数据、神经影像、反应时记录,试图拼凑心智的运行规则。同一个决策模式,可以用强化学习算法拟合,也可以用贝叶斯推断框架解释,还可以用启发式规则模拟。
数据不足以区分它们。你增加样本量,只能缩小参数误差,不能证明哪个底层机制为真。认知建模者最终靠的是非经验标准:参数可辨识性、计算可追踪性、跨情境泛化能力。这些标准听起来像技术指标,实质上是研究者对“好模型该长什么样”的先验约定。
我倾向于认为,这种约定暴露了人类解释冲动的局限。我们总想把黑箱拆成齿轮,但心智可能根本不以齿轮的方式运转。你强行套用可分解的模块,只是为了让数学推导能落地,而不是因为大脑真的按模块分工。
更麻烦的是,模型越精细,过拟合风险越高。你加一个注意力权重,模型在训练集上表现提升,在新任务上却可能崩溃。你砍掉一个层级,泛化能力变强,但机制解释变得模糊。这里头没有绝对最优,只有权衡。
认知科学家在论文里经常用“奥卡姆剃刀”为简约模型辩护。但剃刀本身不是物理定律,它只是研究者在不确定状态下的止损策略。你选它,是因为你付不起无限假设的试错成本。
对齐方案比较依赖非经验的权重分配
人工智能的价值对齐问题,把不充分决定性推到了工程实践的层面。你给语言模型喂入海量人类偏好数据,它学到的是分布规律,而不是道德原则。同一个安全边界,可以通过强化学习奖励函数实现,可以通过宪法式规则约束实现,也可以通过多层级监督微调实现。
经验评测指标在这里集体失效。模型在标准基准上分数接近,在长尾场景里的行为却天差地别。你无法用测试集证明某个对齐方案“更安全”,你只能比较它们在未知情境下的失效模式。
比较依据又回到了非经验领域。你倾向于选可解释性强的方案,还是选鲁棒性高的方案?前者意味着人类能追踪决策链条,后者意味着系统在分布外仍能保持行为稳定。两者往往冲突。可解释性要求透明,透明通常意味着限制容量。鲁棒性要求冗余,冗余通常意味着黑箱化。
2019年斯图尔特·罗素在《兼容人类》里反复强调,对齐的核心不是教机器遵守规则,而是让机器理解人类偏好具有不确定性。这个立场本身就是一个非经验选择。它放弃了对“完美规范”的追求,转而接受持续协商的工程路径。你接受它,是因为你承认人类价值本身就不自洽。
对齐方案的比较,最终变成风险偏好的显影液。你愿意把控制权交给可审计的弱系统,还是把赌注压在自主性强的强系统?没有数据能替你回答,你只能根据自己的容错底线做决定。
理论选择最终指向的是认知主体的自我设定
把物理学史、认知建模与人工智能对齐放在一起看,线索变得清晰。证据不足时的理论选择,从来不是纯粹的认识论问题,而是认知主体的自我定位问题。你选简洁性,等于你承认自己需要可掌控的解释。你选解释力,等于你愿意接受复杂换覆盖。你选可解释的对齐方案,等于你宁可牺牲性能也要保留问责通道。
这些选择背后没有更高的客观标准兜底。它们反映的是人类在面对不可还原的不确定性时,如何划定自己的认知边界。你无法通过堆砌事实绕过这一步,因为事实本身不携带偏好。
这只是我的一种解读,可能过于侧重认知习惯的维度,忽略了制度与资源分配的现实约束。实验室的资金流向、期刊的审稿口味、工程团队的交付压力,都在暗中塑造理论筛选的权重。但这些外部因素依然通过改变研究者的风险承受力,最终落回到认知偏好上。
你也许会觉得,承认非经验标准的主导地位会让科学失去客观性。但反过来看,正是这种坦诚让科学避免了独断。你把偏好摆上台面,接受它可能在未来被推翻,理论才保持可修正的活性。
我们手里没有能一劳永逸裁决理论优劣的尺子,只有不断校准的临时标尺。当你下一次面对两个都能拟合数据、却指向不同世界图景的假说时,你会把砝码放在哪一端。