夹子
预计阅读时间:4分钟52秒

数学界如何从排斥走向接受近似计算

数学界接纳近似计算并非源于理论自觉,而是被工业制造的物理现实强行撬动。误差从必须消灭的真理瑕疵,彻底沦为可量化控制的代价,连欧拉都敢把发散级数当合法公式直接运算。

可能包含AI生成内容

0
0

从“精确即真理”到“误差即代价”


“自然界并不做跳跃。”莱布尼茨在十七世纪留下的这句断言,曾被当时的学者奉为圭臬,仿佛只要逻辑链条足够严密,纯粹的符号演算就能把宇宙的每一处褶皱都熨平。但现实往往比这种设想更粗糙。数学界早期对近似计算的排斥,并非源于对计算错误的恐惧,而是源于对确定性丧失的本能抗拒。一旦允许近似,真理的界限就会开始滑动。


历史上不乏用直尺和圆规死磕代数方程的古典学者。他们宁愿把时间耗费在无解的尺规作图问题上,也不愿接受一个能快速给出十位有效数字的数值解。这种态度在当时的学术共同体里占据绝对主导,因为近似被视作智力上的妥协。


直到工业制造把机械传动与弹道测算推到极限,工程师们才被迫面对一个尴尬的事实:哲学意义上的“精确”在物理实践中毫无用处。齿轮的咬合间隙、火药燃烧的湍流、材料的内部微裂纹,这些扰动本身就是一个连续的概率分布。要求数学给出一个绝对确定的答案,无异于在相变临界点附近要求系统保持静态。


误差控制的标准,就这样被现实需求强行撬动。


数学界开始意识到,近似不是精确的敌人,而是处理复杂系统的唯一可行路径。


牛顿的切线:局部近似的暴力美学


艾萨克·牛顿在手稿中首次系统展示了一种用切线逼近方程根的算法。该算法在任意初始点 处作函数 的切线,求出切线与横轴的交点 ,再将 作为新的起点重复操作。迭代公式 里的每一个符号都指向同一个几何直觉:当我们无法一眼看穿曲线的整体走向时,至少可以在极小的邻域内把它当作直线。导数 就是那条直线的倾斜程度,减法项则是沿着斜率向零点迈出的步长。


这种算法在当时的数学圈引发了剧烈的争议。批评者指出,切线法放弃了全局收敛的承诺,如果初始点选在函数的拐点附近,迭代序列会直接飞向无穷远,或者陷入周期震荡。牛顿本人也清楚这个缺陷,但他更看重局部逼近的计算效率。在十七世纪,手算开平方或求对数需要耗费数日,而牛顿法在合适初值下能以二次收敛速度迅速逼近真根。这里的取舍很明确:放弃全局的确定性,换取局部的收敛速度。


误差的控制在这里并不依赖先验的理论界限,而是依赖相邻两次迭代值的差值。当这个差值小于预设范围时,算法停止。这种实用主义的误差判定,在当时的纯数学家看来几乎是粗暴的。他们习惯于用代数恒等式证明等式的绝对成立,而不习惯用“差值小于某个小数”来宣告胜利。


但牛顿切线的真正意义,在于它把“误差”从一个需要被消灭的缺陷,转化为了一个可以被量化的变量。迭代过程本身就是一个误差不断被压缩的映射。只要函数的导数在零点附近不为零,且初始猜测足够靠近真根,误差就会以二次方的速度衰减。


问题在于,局部逼近的可靠性完全建立在函数光滑性的假设上。一旦这个假设被打破,整个计算过程就会像失去支撑的拱桥一样坍塌。这迫使数学家去寻找更普适的近似工具。


无穷级数的幽灵:发散与收敛的边界战


十八世纪的学者对无穷级数的态度堪称狂热。欧拉在《无穷小分析引论》中,毫无顾忌地将 替换为 ,哪怕 时级数显然发散。在欧拉看来,级数只是代数表达式的另一种书写形式,只要形式上的运算规则保持一致,发散带来的荒谬结果只是“符号游戏的副作用”。


在现代数学视角下,此类形式推演显得缺乏严谨性。但在当时的语境里,无穷级数被视为破解超越函数的万能钥匙。通过逐项积分或微分,数学家能把复杂的曲线拆解成无限个幂函数的叠加。误差在这里表现为级数的截断项。如果你只取前 项,剩下的部分就被当作“无穷小”直接丢弃。


这种做法的代价很快显现。乔治·贝克莱在《分析学家》中尖锐地质问:微积分中的无穷小量到底是什么?是零,还是一个无限小但非零的量?如果是前者,为什么丢弃它之后等式依然成立;如果是后者,为什么学界允许一个非零的量被忽略。这场争论直接暴露了十八世纪微积分基础的软肋:缺乏对无穷小逻辑的严格界定。级数就像一条不断分叉的河流,如果不设置堤坝,计算结果就会被发散的支流彻底冲垮。


收敛标准的建立,本质上是学者对误差界限的一次重新划界。他们开始要求级数必须满足某种条件,使得部分和与极限值的差可以被任意小的正数控制。这不是对精确性的妥协,而是对“精确”定义的降维重构。精确不再意味着符号上的完全相等,而是意味着误差可以被压缩到任意预设的精度之下。


柯西与魏尔斯特拉斯的防线:ε-δ语言的建立


奥古斯丁·柯西在《分析教程》中,首次用严格的极限概念重新定义了无穷级数的收敛。他不再依赖欧拉式的形式推演,而是引入了一个看似枯燥却极为致命的判据:对于任意给定的正数 ,总存在一个正整数 ,使得当项数 时,部分和的差 。这个不等式就是著名的柯西收敛准则。 代表你愿意容忍的误差上限, 代表为了达到这个上限所需的最小计算量。


魏尔斯特拉斯后来将这套逻辑进一步固化为 语言。他把“无限趋近”这个模糊的动态描述,替换成了静态的不等式约束。误差控制从此有了明确的数学语法。你不再需要相信直觉或形式美感,只需要验证不等式是否成立。


这里头有一个常被忽略的细节:柯西和魏尔斯特拉斯的严格化,并不是为了否定近似计算,而是为了给近似计算颁发合法执照。他们将误差从哲学争议中剥离,纳入严密的逻辑框架内。只要你能证明余项的绝对值小于 ,近似解就和精确解在数学上等价。这种等价不是符号层面的,而是拓扑意义上的。


这套防线建立之后,数学界对近似的排斥迅速瓦解。工程师可以放心地使用泰勒展开计算机械应力,天文学家可以用摄动级数预测行星轨道,因为误差不再是不可控的幽灵,而是可以被精确锁定的标量。


但严格化的代价同样沉重。 语言虽然保证了理论上的无瑕,却对实际计算毫无指导意义。它告诉你误差可以任意小,却不告诉你需要多少项才能达到这个“小”。理论推演与工程计算的裂痕,依然横亘在那里。


科学计算的妥协:截断、舍入与稳定性


二十世纪中叶,冯·诺依曼在主持核武器设计相关的数值计算项目时,直面了一个古典分析从未遇到过的问题:机器舍入误差的累积。浮点运算的精度是有限的,每一次加减乘除都会引入微小的截断偏差。这些偏差在单次计算中微不足道,但在数万步迭代后,会像雪球一样滚成巨大的计算灾难。冯·诺依曼与戈尔德斯坦在报告中明确提出,数值算法的稳定性比收敛性更重要。


稳定性分析彻底改写了误差控制的优先级。一个算法可能在理论上收敛,但在实际机器上却因为条件数过大而发散。条件数刻画了输入数据的微小扰动对输出结果的放大倍数。当条件数极高时,即使初始误差只有 ,经过几十步运算后也会被放大到 量级,计算结果彻底失去物理意义。


科学计算界的选择很现实:放弃对绝对收敛的执念,转向对误差传播路径的控制。数值分析开始大量引入后向误差分析。詹姆斯·威尔金森在《代数过程中的舍入误差》中证明,与其追踪前向误差的累积,不如反推:计算出的近似解,究竟是哪个微小扰动后的精确解。如果扰动足够小,算法就是稳定的。


这种思维转换,把误差从“需要消灭的敌人”变成了“需要管理的资源”。在流体力学、气象预报和有限元分析中,近似计算不再是精确计算的劣质替代品,而是处理高维非线性系统的唯一工具。误差控制的标准,从逻辑严密性,转向了算法鲁棒性与计算成本的综合权衡。


大模型训练的异变:梯度下降与概率近似


当近似计算的传统延伸到深度学习时,误差控制的底层逻辑发生了更彻底的相变。大模型的训练本质上是在一个千万维的参数空间里寻找损失函数的极小值。梯度下降法在这里是一阶优化算法,与依赖二阶海森矩阵的牛顿法不同,只不过用随机梯度替代了精确梯度,形成梯度下降的随机化变体。


随机性的引入,直接打破了古典近似计算对“确定性轨迹”的依赖。参数更新时,优化器观测到的不是真实的损失曲面,而是一个带有噪声的局部切平面。这个噪声来源于小批量采样的方差。古典数值分析会认为这种噪声是必须被滤除的干扰,但深度学习的研究者发现,这种噪声恰恰是算法能够逃离鞍点、避免陷入局部极小的关键。


误差在这里失去了传统的度量标准。你无法定义一个明确的阈值,因为损失函数本身是非凸的,全局最优解既不存在也无法验证。误差控制被替换为泛化边界的估计。瓦普尼克在《统计学习理论的本质》中提出,模型的预测误差由经验风险与模型复杂度共同决定。大模型训练实际上是在这两者之间寻找一个动态平衡点。


科学计算要求误差随迭代单调下降,且结果具有可重复性。大模型训练则接受误差的非单调震荡,甚至刻意引入正则化来增加训练过程中的随机扰动。近似的含义从“数值逼近真值”滑向了“在概率分布中寻找可接受的拟合”。确定性被概率性取代,精确性被泛化性取代。


误差的权重:我们该接受怎样的“不精确”


我倾向于认为,数学界从排斥到接受近似计算,并不是学术标准的退化,而是认知工具的扩容。牛顿迭代法让我们看到局部逼近的效率,柯西的 语言为近似颁发了逻辑执照,而现代科学计算与深度学习则把误差管理推向了高维概率空间。这三条线索并不矛盾,它们分别对应着三种不同的问题场景。


在结构力学、轨道计算这类对安全性要求极高的领域,我依然坚持严格误差界的传统。这类问题容不得随机性作祟,误差必须被压缩到物理公差允许的范围内,且算法的收敛路径必须清晰可追溯。桥梁的应力计算结果依赖带有噪声的随机梯度,这在工程规范中是不可接受的。


但在处理高维非凸优化、自然语言理解或气候模拟时,强行追求古典意义上的精确只会导致计算资源的枯竭。这里的误差控制应该转向稳定性与泛化能力的权衡。允许近似,承认噪声的合理性,才是应对复杂系统的务实选择。


这只是我基于当前计算范式的一种划分,未必能涵盖所有交叉地带。数学的边界始终在移动,误差的定义也会随之变形。某个模型的训练损失在震荡中缓慢下降,并非精确性的溃败,而是人类在面对不可解方程时,主动让出的一小片确定性领土。

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号