预计阅读时间：3分钟32秒

随机掩码如何影响自监督表示粒度

随机掩码比例并非单纯增加重建难度，而是直接切换模型的学习路径。低掩码率让网络依赖局部上下文做高频修补，高掩码率则强迫其放弃纹理拟合，转向跨区域的长程结构推演，彻底重塑特征空间的几何形态。

可能包含AI生成内容

掩码率决定了信息重建的起点

2018年，Devlin等人在《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中正式提出随机词元遮挡策略。那时的默认比例是百分之十五。视觉领域的研究者起初只是把它当作一种常规的数据增强手段，并未意识到遮挡比例本身会改变模型的学习轨迹。

后来He等人在MAE中将遮挡率推到百分之七十五。很多人认为这只是为了增加重建难度，迫使网络记住更多底层特征。我倾向于认为这种解释遗漏了关键机制。难度提升只是表象，网络在背后分配注意力的方式发生了实质性偏移。

局部特征和全局依赖的取舍，并不由损失函数直接规定。损失函数只负责惩罚重建误差。真正引导权重更新的，是缺失信息的空间分布模式。

这就像去菜市场挑菜。如果只遮住番茄的一半，摊主靠周围散落的碎片就能猜出全貌。如果遮住整筐蔬菜的四分之三，摊主必须依赖摊位布局、季节规律和进货渠道来反推。网络面对输入信号时的推演逻辑，其实遵循同样的路径。

遮挡比例不是调节数据量的旋钮。

低比例和高比例引导模型走上完全不同的拟合路线。我们需要拆解这两种路线在计算过程中留下的痕迹，看看网络是如何在可见与不可见之间做出权衡的。

语言模型的局部修补依赖高频先验

BERT的百分之十五遮挡率经过严格验证。它保留了大部分上下文线索。模型在训练时不需要跨越很长的距离去填补空白，相邻词元的共现关系已经提供了充足的约束条件。

编码器顶层预测头只需要利用全局上下文线索，就能以极高的概率锁定正确答案。语言数据本身的离散性，配合高频搭配的统计规律，让局部窗口内的信息量已经足够。网络学会的是条件概率的精确校准。

回过头看，这种机制把计算资源集中在局部依赖的提取上。注意力矩阵的权重迅速衰减到窗口边缘。模型不再尝试建立跨段落的抽象关联，而是专注于词与词之间的邻接关系。

特征空间因此呈现出明显的簇状聚集。语义相近的词元在向量表示里靠得很近。下游分类器可以直接切割这个空间，而不需要复杂的非线性变换。

早期文本分类系统的实践表明，该表征在长程指代消解或跨句逻辑推理上常出现断裂。模型太依赖眼前的上下文线索，缺乏对整体篇章的独立建模能力。

语言模型的掩码设计，本质上是在利用文本自身的冗余性来降低优化难度。视觉数据的连续性打破了这种局部修补的假设。当像素之间不再有明确的语法边界时，网络必须换一种方式分配算力。

视觉模型的稀疏遮挡迫使全局推演

百分之七十五的遮挡率在图像领域曾被视为极端设置。大部分区域被抹去，只剩下零星的碎片。模型无法像处理文本那样，依靠邻域插值进行平滑过渡。

视觉信号的连续性要求模型进行长程推理。重建物体的后半部分，不能只看前半部分周围的像素。网络必须从可见的轮廓比例、背景光影和透视关系中，推断出被遮挡部分的几何形态。

计算预算被迫从局部匹配转移到全局关联。编码器需要处理可见块之间的远距离关系。自注意力机制在这里不是用来做精细的颜色过渡，而是用来搭建场景的骨架。

He等人在2022年的实验中记录了这种转变带来的副作用。低遮挡率下的视觉预训练模型，表征能力甚至不如直接监督的分类网络。高遮挡率反而解耦了语义抽象和底层纹理的绑定。

算力跟着缺失区域转移。

这种算力转移直接改变了特征空间的拓扑形态。稀疏信号输入迫使模型放弃对高频噪声的拟合，转而寻找能够跨越空白区域的稳定线索。

高遮挡率重塑了特征空间的几何分布

特征空间不是静态的容器，它随着训练目标的改变而变形。低遮挡率让模型专注于重建每一个可见块的边缘和颜色。向量表示被拉伸到极高的范围，每个方向对应一种局部纹理模式。

当遮挡率上升时，高频细节的梯度信号被大幅削弱。模型发现优化底层像素的代价，远高于提取物体部件和空间布局的代价。优化方向自然向低频语义分量倾斜。

这种倾斜在数学上表现为特征空间的压缩与重组。原本分散在不同子空间的局部响应，被聚合到少数几个能够解释全局形态的基底上。表征粒度从像素级跃升到部件级。

我们可以把这种过程理解为一种隐式的正则化。网络在拟合局部特征时，实际上是在记忆训练集中特定的光照条件和背景噪声。高遮挡率切断了这种捷径。模型必须找到那些在随机缺失条件下依然保持不变的物理规律。这些规律通常是物体的对称轴、部件的相对位置、以及场景的透视关系。当网络被反复要求在信息残缺的情况下重建完整画面时，它学到的不再是具体的像素值，而是像素值之间的高阶统计依赖。这种依赖关系在特征空间中表现为更加紧凑的流形，下游任务只需要线性分类器就能提取出足够的判别信息，而不需要微调大量参数来对抗过拟合。

但这套几何解释仍然停留在静态描述。我们需要看动态的注意力权重是如何在训练过程中重新分配计算资源的。

机制的转移发生在前向传播的每一个时间步。

计算预算的隐性转移发生在注意力层

自注意力机制的复杂度随序列长度平方增长。在低遮挡率下，可见块数量庞大，注意力头需要处理海量的局部交互。

权重矩阵很快饱和。网络花费大量计算力去确认相邻块之间的颜色渐变和纹理延续。这种计算是冗余的，但符合低缺失率的优化目标。

遮挡率提高后，可见块数量锐减。注意力图的稀疏性迫使头与头之间分工。一部分头专注于可见区域内部的局部整合，另一部分头开始跨越空白区域，建立远距离的语义桥接。

计算预算的分配不再是均匀的。模型自动将梯度更新集中在那些连接不同物体部件的查询键值对上。全局依赖的捕捉效率因此得到显著提升。

这里存在一个容易被忽视的技术细节。解码器虽然使用了完整序列（含掩码标记），但编码器只看到了碎片。信息的不对称设计，本质上是在强迫网络在瓶颈层完成从局部到全局的抽象跃迁。

这种跃迁直接回答了表征粒度变化的根源。掩码率改变的是模型观察数据的透镜焦距。

焦距拉长时，细节模糊，但轮廓清晰。

表征粒度最终由缺失规模反向定义

掩码机制的演化揭示了一个反直觉的事实。表征的精细程度，并不取决于网络看到了多少信息，而取决于它被允许忽略多少信息。

低遮挡率保留冗余，网络学会区分相似但不同的局部模式。高遮挡率制造真空，网络被迫提取支撑整体形态的骨架特征。两种路线没有绝对的高下，只有适用场景的差异。

我承认，将视觉与语言的掩码机制进行直接对比可能存在过度简化。两种模态的底层统计特性差异巨大，文本的离散性和图像的连续性决定了最优遮挡率不可能统一。这只是我基于现有架构的一种推演，未必能涵盖多模态融合后的复杂情况。

但计算资源的分配逻辑是通用的。当输入信号被刻意削弱时，网络会自动将有限的算力投入到信息增益最高的路径上。这种自我调节能力，正是自监督学习区别于传统监督范式的地方。

其实，我们设计掩码率的过程，是在替模型划定认知的范围。范围划得太宽，网络沉溺于细节。范围缩得太窄，网络丢失物理常识。

未来的问题或许不在于如何寻找更优的比例，而在于如何让模型在训练过程中自主决定忽略哪些区域。当缺失本身成为可学习的信号时，表征粒度的控制权将彻底交还给算法本身。