中年人重新学习
预计阅读时间:1分钟50秒

偏差与方差权衡为何在深度网络中失效

经典偏差与方差权衡并未失效,而是被过参数化重构。梯度下降自带隐式正则化,会将噪声均匀稀释到海量参数中,使测试误差越过传统峰值后再次俯冲,形成反直觉的双重下降。

可能包含AI生成内容

0
0

深度网络跨越插值阈值后的反常轨迹


机器学习教科书的第一章通常会从一条U形曲线讲起。这条曲线定义了模型复杂度和泛化误差的关系。参数太少,拟合不足,偏差主导。参数加到某个临界点,方差抬头,测试误差跟着往上走。这套理论在支持向量机和浅层网络时代极其稳固。直到深度网络参数量突破千万甚至上亿,曲线没有停在U底。误差继续下降,甚至跌破历史最低值。2018年前后的多项实验把这条反常轨迹记录下来。训练误差归零之后,测试误差先冲高,再俯冲。双重下降(Double Descent)现象摆在面前。


传统理论的前提是模型必须在欠拟合和过拟合之间找平衡。它假设插值(即训练集误差降为零)必然伴随灾难性的方差。真实数据里存在标签噪声,强行记住所有样本通常意味着记住噪声。方差项会呈指数级膨胀。深度网络走的是另一条路。说白了,参数数量远超样本数量,方程组变成欠定状态。解空间里存在无穷多个能让训练误差归零的权重组合。模型不需要在拟合和泛化之间妥协。它直接跨过插值阈值。解空间的几何形态发生根本改变。问题变成在所有能完美拟合的解中挑哪一个。


隐式正则与特征谱协同吸收数据噪声


挑解的过程不在显式正则化里发生。梯度下降算法自带筛选机制。损失函数的高维地形不是单一深坑,而是一片连绵的平坦洼地。随机梯度下降的噪声使其更易收敛至平坦区域,它天然倾向于停在宽阔的谷底。宽阔的谷底对应权重向量的范数较小。范数小的解对输入扰动不敏感。这里头藏着隐式正则化。算法没有显式添加惩罚项。优化路径自然偏向低范数解。权重更新被限制在一个较小的欧氏球内。


数学上的支撑来自谱分析和随机矩阵理论。协方差矩阵的特征值分布决定了模型如何分配容量。真实世界的数据往往集中在少数几个主特征方向上。信号强度随特征值衰减。当网络宽度足够大,特征谱会出现重尾分布。模型先用大特征值方向拟合主要信号。剩余的小特征值方向容量过剩,正好用来吸收噪声。小特征值对应的权重更新步幅被梯度尺度压制。噪声被分摊到海量微小参数上。每个参数承担一点点扰动。整体方差不会爆发。特征值的衰减速度越平缓,模型容纳噪声的缓冲带就越宽。这种良性过拟合在数学上已有完整推导。高斯噪声下的线性回归和两层神经网络表明相同机制同样适用。


经典理论的最坏假设脱离数据几何


传统学习理论的推论之所以失效,是因为它们建立在最坏情况假设上。VC维和Rademacher复杂度计算的是假设空间能容纳的任意标签组合。它们不考虑数据本身的几何形状,也不考虑优化算法的偏好。深度网络处理的数据分布在低维流形上。流形外的空间几乎是真空。算法只在这些真实存在的区域里划分决策面。理论给出的上界松到失去参考价值。三百亿参数的模型,经典公式算出来的泛化误差上限超过百分之百。公式没算错。公式没把数据分布和训练动态写进去。


优化配置决定双重下降的显现边界


学术界对双重下降的适用范围仍有分歧。


早停策略能把它抹平。


有实验把学习率衰减曲线调低,测试误差的第二次下探就不见了。过参数化带来的波动更像特定优化配置下的产物,并非所有场景的固定特征。数据分布的复杂度一旦超过模型容量的吸收极限,方差依然会失控。


泛化风险转移至模型与训练的交汇处


理论边界在特定条件下依然有效。


偏差与方差权衡没有消失。风险转移到了数据特征分布与优化轨迹的交汇处。网络靠隐式偏好筛选解空间。靠特征谱分配噪声容量。说到底,传统公式依然正确,只是适用域被划在了另一个坐标系里。看懂双重下降,关键在于把模型容量、数据几何和训练动力学拆开看。三者重合的地方,曲线才会出现拐点。梯度下降的步长和特征值的衰减速度,共同画出那条反常的轨迹。

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号