脑容量已满
预计阅读时间:4分钟3秒

大模型在复杂任务中的算力分配策略

把推理算力分散到多次独立尝试并投票,往往比单次长链条“深思熟虑”更准确。因为长思考会累积步骤误差,而短尝试能截断错误传播,算力堆砌绝非越久越聪明。

可能包含AI生成内容

0
0

算力追加并非线性提升的通用解法


先退一步看,我们过去几年对智能增长的期待,基本建立在一条清晰的经验规律上。增加参数量,扩大训练数据,性能就会跟着上去。这套逻辑在预训练阶段跑得十分顺畅。可一旦进入推理环节,同样的公式还管用吗。


业界现在的普遍做法是追加测试期算力。模型输出草稿,再自我检查,再修正,循环几次。大家默认这种内部循环越多,答案就越准。这种想法很自然。预训练的成功给了我们强烈的心理暗示,认为算力投入和智能产出之间是一条笔直的上坡线。


但现实运行轨迹开始偏离这条直线。当模型在一个简单问题上反复自我验证时,性能提升微乎其微,延迟却成倍增加。这里头存在一个被忽视的变量:任务本身的复杂度分布并不均匀。简单题不需要反复验算,难题靠几次循环也未必能突破。


算力投放需要重新校准。直接输出和内部验证并不是非此即彼的选择,而是两种不同的能耗形态。模型在面对不同输入时,必须在两者之间做动态切换。


事情没那么简单。


我们得承认,当前的测试期算力缩放研究正在揭示一种反直觉的现象。把全部预算压在单次长思考链上,往往不如把预算分散到多次独立尝试,再用外部判别器做投票。这种策略在数学解题和代码生成任务中表现稳定。它背后的逻辑很清晰,单次长链条的误差会随步骤累积,而多次短尝试能截断误差传播。我们需要重新理解“思考”在机器内部的实际形态——它不再是线性递进的过程,而是一张不断自我折叠的网。


内部验证机制改变了推理的能耗形态


模型生成答案的过程,本质上是一个在概率空间里寻找最优解的过程。每一次 token 预测都在缩小可能性范围。直接输出依赖的是训练阶段沉淀的先验分布,它假设当前语境下的最高概率路径就是正确答案。这种假设在常规对话里足够用。


内部验证机制的引入,打破了这种单向流动。模型开始分配一部分算力去评估自己刚才生成的内容,相当于在生成流旁边开了一个并行的校验回路。这个过程会消耗额外的上下文窗口和计算步数。能耗形态从线性延展变成了网状交织。


这种内部连接在物理系统里并不陌生。它很像热力学中的熵减过程——系统需要持续做功,才能维持局部秩序不崩塌。大模型在内部验证时做的正是这种功。它不断对比生成结果与潜在约束之间的偏差,直接修正偏离预期的输出。当然,这只是一个便于理解的比方。回到实际机制,模型只是用同一套权重跑不同的提示词组合,靠注意力权重的重新分配来完成自我纠错。


2024 年 Snell 等人在 arXiv 上发表的测试期算力缩放论文指出,最优的算力分配高度依赖于任务类型和预算上限。他们通过大规模实验验证了一个趋势:当算力预算较低时,增加验证次数能显著提升准确率;但当预算越过某个拐点后,继续堆叠验证步骤的边际收益会迅速衰减。这篇研究把测试期计算从经验调参推向了可量化的工程问题。


拐点不是固定的。它随着任务特征上下浮动。这就引出了下一个必须面对的问题。


算力预算到底该怎么切分。


有限理性决定了预算投放的边际递减


决策资源在任何系统中都是稀缺的。1947 年赫伯特·西蒙在《行政行为》中提出有限理性理论时,针对的是人类组织在信息处理上的天然局限。他指出,个体无法遍历所有选项,只能在满意而非最优的标准下做选择。把这一视角平移到推理模型上,会发现同样的约束依然存在。


模型的上下文长度和计算步数构成了它的认知范围。在范围之内,它可以进行多步推理;越过范围,信息丢失和误差累积就会接管整个过程。有限理性在这里不是哲学比喻,而是实打实的算力天花板。预算投放一旦触及这个天花板,继续增加计算量就不再产出有效信息,只会放大噪声。


边际递减规律在复杂任务中表现得尤为明显。当模型尝试解决一道需要跨学科知识融合的开放题时,前几轮内部验证能筛掉明显的逻辑漏洞。但到了深水区,模型自身的知识盲区会暴露出来。这时候再给它十倍的算力,它也变不出训练时没见过的概念。收益曲线在这里会明显放缓。


收益曲线会掉头。


这并不意味着算力缩放走错了路。它只是提示我们,测试期计算必须和任务难度做精确匹配。低预算下,模型应该优先保证直接输出的流畅度;高预算下,才值得启动复杂的内部验证循环。这种匹配不是靠人工写规则就能搞定的。它需要模型自己具备感知任务难度的能力。


当前多数系统往往用一套固定策略处理所有请求。这种粗放的做法正在被逐步替换。更精细的分配逻辑开始浮现。


任务难度梯度划分了算力的使用边界


难度不是一个标量。它由知识跨度、逻辑深度和容错空间共同构成。简单的常识问答只需要检索模式匹配,模型在第一层前向传播就能锁定答案。中等难度的数学应用题需要拆解步骤,误差容忍度变低,验证回路的价值开始显现。极高难度的开放生成则涉及多重假设检验,直接输出和内部验证的界限变得模糊。


算力分配策略必须跟随这个梯度做动态调整。在低难度区间,直接输出是最优解。模型把算力集中在单次解码上,能最大程度降低延迟,同时保持较高的准确率。把算力浪费在反复检查常识上,只会拖累系统吞吐量。


进入高难度区间,策略需要翻转。模型必须把一部分生成算力转化为判别算力。它不再追求一次成型,而是允许自己输出多个候选分支,再用内部评分器做筛选。这种翻转不是随意切换的,它依赖于一个明确的触发条件。


条件往往隐藏在初始生成的置信度分布里。当模型对第一步输出的概率打分低于某个临界值时,系统会判定当前任务超出常规处理范围。这时候才会激活额外的计算步数。这种机制让算力使用从一刀切变成了按需分配。


在我看来,这种推演虽然只是理论模型的一种简化,但置信度作为核心判断指标的逻辑是站得住脚的。它解释了为什么有些请求模型秒回,有些却要停顿数秒。


停顿本身就是一种信号。


切换逻辑的核心在于误差信号的置信度


模型如何知道自己该停还是该继续。答案不在外部指令,而在内部反馈。每一次 token 生成后,模型都会隐式计算当前状态与预期目标的偏离程度。这种偏离程度被量化为误差信号。当信号强度超过预设范围,验证机制就会介入。


误差信号的提取并不直观。它通常依赖于训练阶段植入的奖励模型或者过程监督信号。2023 年 OpenAI 团队在 Let's Verify Step by Step 中展示了逐步验证的可行性。他们通过给中间步骤打分,教会模型识别推理链条中的断裂点。这种训练让模型在推理时能够实时监测自身的逻辑连贯性,而不是等全文生成完毕再回头补救。


实时监测改变了算力投放的时间分布。模型不再把算力平均分配给每个生成步,而是把算力集中在高不确定性的节点上。低置信度的分支会得到更多计算资源进行扩展,高置信度的分支则快速收敛。这种聚焦机制大幅提升了整体效率。


聚焦意味着放弃。


放弃对确定性分支的反复推敲,把资源留给真正需要攻坚的环节。这与人类解题时的注意力分配非常相似。我们在熟悉的概念上几乎不费脑力,只在遇到矛盾时才会停下来重新审题。机器也在学着用同样的方式分配计算预算。


这种分配逻辑在工程落地时依然面临摩擦。


工程实践中的妥协保留着原始痕迹


理论上的最优分配在真实服务器上运行时会变形。硬件调度、网络延迟和并发请求都会干扰算力的精准投放。为了维持服务可用性,系统不得不保留一部分固定策略。比如设置全局的最大推理步数上限,或者在流量高峰期强制截断内部验证循环。这些妥协不是技术倒退,而是现实约束下的必要选择。


当前的调度算法大多采用启发式规则配合轻量级预测模型。它们无法做到完美的动态平衡,但能在可接受的延迟范围内提供稳定的性能。工程师们更看重系统的鲁棒性,而不是单一任务上的极限准确率。这种取舍在早期技术探索阶段很常见。


未来的改进方向可能在于更细粒度的过程控制。把算力分配从任务级下沉到步骤级,让模型在每一个决策点都能自主决定下一步的计算深度。这需要更强的自我评估能力和更高效的硬件支持。路线还很长,但技术栈的底层支撑已经具备雏形。


算力分配的探索还在继续。我们看到的每一个停顿、每一次重试,都是模型在有限资源下做出的权衡。它不完美,但足够真实。


下一个问题或许不在于如何塞进更多算力。而在于如何让每一次计算都落在该落的地方。

评论
Copyright Created by DataER | 沪ICP备2024052789号-5 | 沪公网安备31010402336337号