blog
2026-06-19

一个~1B参数量的小模型,凭什么打败百倍规模的


这项由FaceMind Research Asia主导的研究成果以论文形式发布于2026年6月,论文编号为arXiv:2606.18208v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

在正式展开之前,先说一件让人觉得有点不可思议的事情:一个参数量大约只有10亿的小模型,在世界建模任务上的表现,全面超越了参数量超过它100倍的顶尖商业AI接口。这不是一个靠堆规模、堆数据砸出来的胜利,而是靠一个聪明得多的架构设计实现的。这篇文章要讲的,就是这个故事。

**一、故事的起点:什么是"世界模型",它为什么这么难**

在真正理解这篇研究之前,需要先搞清楚一个核心概念:世界模型到底是什么东西?

用最直白的话说,世界模型就是一个"模拟器",它的任务是在脑子里预测:如果我做了某个动作,接下来世界会变成什么样子?比如一个学下棋的AI,在真正落子之前,它需要在脑海中推演几十步甚至几百步,看看每种走法会导致什么局面。这个在脑海中推演未来的能力,就是世界模型的核心。

这件事比听起来难得多。物理世界里的变化往往是连续发生的——一个球滚下去,会碰到另一个球,另一个球再碰到墙,然后弹回来。每一步的预测误差,都会叠加到下一步上。就像你用一个有轻微歪斜的尺子反复测量,每次测量都稍微差了一点点,但测了100次之后,误差已经大到离谱了。这个问题在世界模型领域有个专门的名字,叫"误差累积",是所有长程预测任务的头号敌人。

传统的解决思路很直接:把模型做得更深、更复杂,让每一步的预测尽可能准确。这个思路没错,但它带来了另一个问题——模型越大,运行越慢,成本越高。一个需要在几毫秒内做出反应的自动驾驶系统,或者一个需要反复模拟成千上万个未来场景的游戏AI,是负担不起一个巨大模型的持续运算成本的。深和快,似乎天生就是矛盾的。

FaceMind Research Asia的研究团队认为,这个矛盾并非无解,只是过去的人们一直在用一种错误的方式思考这个问题。

**二、一个来自语言模型领域的启示:如果参数可以被反复使用呢?**

在理解这支团队的解决方案之前,需要绕一个小弯,去了解另一个领域里已经被验证过的一个想法。

在大型语言模型(也就是那些能聊天、写文章的AI)的研究中,有一类特殊的架构被称为"循环变换器"(Looped Transformer)。普通的变换器模型就像一座多层楼房,信息从一楼进来,依次经过每一层处理,最后从顶层输出。每一层都有自己独立的"脑细胞"(参数),层数越多,参数越多,模型越大。

循环变换器的思路截然不同:整栋楼只建一层,但信息可以在这一层里反复转圈,想转多少圈就转多少圈。这一层楼的"脑细胞"被所有的循环圈数共享,所以参数量非常少,但处理深度却可以很深。已有研究证明,这种架构可以用不到10%的参数量,达到和普通模型相近的处理效果,参数效率可以提升2到3倍甚至更多。

更妙的是,这个架构天然地支持"按需计算":如果当前这个问题很简单,转两圈就够了;如果问题很复杂,就多转几圈。不用每次都把所有层全部过一遍,做了很多无谓的计算。

问题来了:这个聪明的想法在语言模型里已经被研究和验证,但在世界模型领域,从来没有人尝试过。FaceMind Research Asia的研究团队决定填补这个空白。

**三、核心发明:让世界模型学会在脑子里反复"推敲"**

这支团队提出的方法被称为"循环世界模型"(LoopWM,Looped World Models)。它的核心思想,可以用一个反复打磨草稿的编辑来类比。

一般的世界模型就像一个只能写一遍就必须交卷的考生——不管题目多难,给你固定的思考时间,到点就得输出答案。而循环世界模型更像一个经验丰富的编辑:面对一篇简单的文章,他扫一眼就能确认没问题;面对一篇逻辑复杂的文章,他会反复阅读、修改、再确认,直到觉得满意为止。处理时间随难度自动调整,既不浪费也不仓促。

在技术实现上,整个架构由四个部分组成,像一条精心设计的流水线协同工作。

首先是"观察编码器",负责把来自环境的原始视觉信息(比如一帧游戏画面)压缩成一个紧凑的数字表示,就像把一张照片的内容提炼成一段简短的文字描述。

接着是"动作嵌入器",把当前智能体打算执行的动作(比如向左走、跳跃)也转换成相同格式的数字表示,让动作和环境信息能够在同一个语言体系里交流。

然后是整个架构最关键的部分——"循环动态核心"(Looped Dynamics Core)。这是整个系统的心脏。它接收来自上一时刻的环境状态、当前的视觉信息和动作信息,然后通过反复迭代,产生对下一时刻环境状态的预测。这个核心内部有一个关键的设计:一个参数共享的变换器模块,会被反复应用T次,每次应用都在上一次的基础上进一步精化预测结果。

最后是"预测头",负责把循环核心输出的环境状态解码成具体的预测结果:下一帧画面长什么样、即将获得多少奖励、游戏是否结束。

整个前向计算过程可以用一个简洁的公式描述:先把观察和动作各自编码,然后喂给循环动态核心,最后由预测头解码。在纯想象训练阶段(也就是不看真实环境、完全在脑子里推演的时候),编码器被绕过,模型直接用自己上一步的预测作为下一步的输入,不断向前滚动。

**四、最棘手的工程难题:怎么让循环不"跑飞"**

循环架构有一个致命的潜在危险,也是过去很少有人把它用在世界模型上的原因之一——数值爆炸。

还是用那个编辑的比喻。如果编辑每一次修改都是在原文上随机叠加内容,而不是在合理的范围内精化,那修改的轮次越多,文章就会变得越来越混乱,最终面目全非。世界模型的长程预测也面临同样的风险:在环境中连续运行成千上万步,每一步都要调用一次循环核心,隐藏状态(也就是模型的"工作记忆")如果在每次迭代中都有一点点放大或偏移,最终会累积成灾难性的数值爆炸。

为了解决这个问题,研究团队在循环核心的数学设计上做了一个精巧的约束,借鉴了一种叫"谱约束状态保留参数化"的方法。用通俗的话解释,就是给负责传递记忆的矩阵(可以理解为"遗忘门")加了一道硬性限制:每次循环传递下来的记忆,其强度必须严格小于1。

具体的实现方式是这样的:定义一个连续时间负对角矩阵,通过一个叫"零阶保持"的离散化步骤,将它转换为一个所有对角元素都严格落在0到1之间的矩阵。这个约束是由数学构造本身保证的,不依赖任何训练技巧,不需要梯度裁剪,不需要后处理,从根本上保证了不管循环多少次、不管预测多少步,隐藏状态永远不会发散。这个性质对于世界模型来说意义非凡,因为它提供了一个理论上的稳定性保证,而以往的世界模型架构都没有这样的保证。

**五、训练时的聪明设计:让模型学会适应任意深度**

光有好的架构还不够,怎么训练也大有讲究。

研究团队在训练时采用了"随机深度训练"的策略:每次训练迭代,循环次数T并不固定,而是从一个泊松分布中随机抽取。这个设计的妙处在于,它让模型从训练一开始就习惯了在不同深度下运行——有时候循环很少,有时候循环很多,模型必须在任意深度下都能给出合理的输出,而不是只在某个固定深度下表现好。更细致的一点是,循环次数是每个训练序列独立采样的,而不是整个批次统一采样,这样能显著降低训练过程中的损失波动,减少让训练不稳定的"损失毛刺"。

训练的总体损失函数由三部分组成:对下一帧画面的重建损失、对奖励的预测损失、对游戏是否终止的预测损失,三者加权求和。反向传播(也就是更新参数的过程)只通过循环次数的一半步数进行,以避免内存占用过大。

当开启了后面会提到的"自适应早退"功能时,还会额外加入一个熵正则化项,防止退出门控退化成总是在第一次就退出或总是跑满循环次数这两种极端情况。

**六、推理时的杀手锏:难的多算,简单的少算**

训练好之后,在实际使用(推理)阶段,循环世界模型还有一个额外的能力:自适应早退(Adaptive Early Exit)。

这个机制通过一个极其轻量的"退出门控"来实现——就是一个单层的小网络加上一个Sigmoid激活函数,参数量微乎其微。每次循环结束后,这个门控会检查当前的隐藏状态,输出一个0到1之间的概率值,表示"当前的预测已经足够好了"的置信度。一旦这个值超过预设阈值,循环立刻停止,用当前的隐藏状态作为最终输出。

这个机制对世界模型来说有特别的价值。考虑一个游戏场景:大多数时刻,物体在空中自由飞行,状态变化是平稳而可预测的,模型可能只需要循环两三次就能给出准确预测。但偶尔会发生碰撞、爆炸或接触事件,这些时刻的物理状态变化复杂,模型需要更多的循环迭代才能收敛到准确的预测。自适应早退让模型能够自动识别这种难度差异,把计算资源集中用在真正需要深思熟虑的时刻。

研究团队做了一个具体的估算:假设一个标准的固定深度基线模型有100层,对于一个简单的自由飞行片段,循环世界模型可能只需要转4次圈(相当于4层),计算量减少约25倍。在一个包含大量简单状态转换的长程推演过程中,总体计算量节省可以高达两个数量级。

另外,推理时的最大循环次数可以超过训练时的平均循环次数,这意味着在测试时可以通过增加迭代次数来进一步提升预测质量,实现"测试时计算缩放"——这是近年来AI研究中被广泛关注的一个方向。

**七、另一项创新:推迟解码,让模型先把一整段未来想清楚**

除了循环动态核心,这篇论文还提出了另一个独立的创新:推迟解码(Deferred Decoding)。

在传统的世界模型中,每推演一步,就要把当前的隐藏状态解码成一帧完整的画面。这就像一个画家,每走一步路,就必须停下来把眼前的风景画成一幅完整的作品,然后再继续走下一步。这个过程有两个问题:一是每次解码都消耗计算资源;二是更深层的问题——强迫模型在每一步都重建完整的视觉细节,会分散模型的"注意力",使它不能专心于推演状态的底层逻辑。

推迟解码的想法是:先不急着把每一步画成完整的画,而是先在脑子里一路推演下去,只记录每一步的核心状态变化,等到最后一步才生成完整的输出。正如近年来语言模型研究中发现的"先编码、再思考、再解码"范式能够显著提升推理质量一样,让世界模型先思考整个动作序列的结果,再在终点解码,也能让模型捕捉到更长时间跨度的动作-结果关联。

在训练推迟解码版本时,模型需要在没有中间步骤监督信号的情况下维持有意义的隐藏状态。为了解决这个问题,研究团队引入了两个轻量级的约束机制。第一个是"潜在一致性损失":用冻结的编码器对每一个中间时刻的真实观测进行编码,得到参考嵌入,然后要求模型预测的隐藏状态通过一个小型投影网络后,与这些参考嵌入对齐。这个损失不需要完整解码器,代价很小,但能防止隐藏状态漂移到语义无意义的区域。第二个是"谱收缩预算"约束:在已有谱约束保证单步稳定性的基础上,对整个长程推演过程中隐藏状态的总变化量设置一个软性上界,防止在多步积累下发生缓慢的数值漂移。

为了让训练稳定,团队还采用了"渐进地平线课程":训练一开始,推演步数K设为1,和普通的逐步解码完全一样;随着训练进行,K逐步增大,直到目标最大步数。这让模型能先学好单步预测,再被要求处理更长的无监督推演序列。

在推理时,推迟解码自然支持两种模式。在规划模式下,给定一个候选动作序列,模型执行一次无解码推演,只在终点评估结果,每个候选序列只需要调用一次解码器,大幅节省计算。在监控模式下,如果需要了解中间某一步的状态,可以用轻量的投影网络输出一个低维状态摘要,而不需要启动完整的解码器。

**八、数字说话:实验结果揭示了什么**

研究团队在两个主要数据集上进行了评测:ScienceWorld和AlfWorld,这两个数据集都属于文本世界建模任务,要求模型给定连续的动作序列,预测环境状态的变化。评测方式是:给模型输入连续五个动作,然后评估模型对最终环境状态的预测质量,使用精确匹配(EM)、词级F1、BLEU分数和实体得分四个指标综合衡量。

在ScienceWorld上,循环世界模型与Anthropic发布的claude-opus-4-6-max进行了直接比较。结果相当令人吃惊:在14个任务类别上,循环世界模型的整体精确匹配率达到68.4%,而claude-opus-4-6-max只有47.2%,绝对差距超过21个百分点。在词级F1上,循环世界模型达到85.3%,对比claude的72.8%。在BLEU-4和实体得分上,差距同样显著。

具体到各个任务,差异更加悬殊。在"Lifespan"这个任务上,claude-opus-4-6-max的精确匹配率为0,而循环世界模型达到了满分100%。在"Boil"任务上,循环世界模型的精确匹配率从claude的22.2%提升到了66.7%。只有极少数任务(如"Thermometer")两者表现接近,在那个任务上双方都超过了83%。

作为参照,研究团队还测试了qwen-3.5-flash和gemini-3-flash-preview-thinking(一个思考型模型)。qwen整体精确匹配率只有10%,实验证明它确实是规模更小的模型,与其他基线存在明显差距。gemini整体达到30.8%,好于qwen但仍然低于claude。循环世界模型对这两个模型的提升更是全面性的。

在AlfWorld数据集上,情况稍有不同。gemini-3-flash-preview-thinking在这个数据集上的整体精确匹配率(50.0%)略高于循环世界模型(51.6%)以及claude(53.0%),但在BLEU分数上循环世界模型以71.6%排名第一,在实体得分上(81.1%)高于claude(77.0%)和qwen(88.4%除外)。总体来看,循环世界模型在两个数据集上保持了竞争力的表现,且在参数量约为最强竞品百分之一的情况下实现了这一结果。

**九、推迟解码单独拿出来究竟有多大用?**

为了更清晰地展示推迟解码的具体贡献,研究团队对推迟解码的效果进行了专项分析,对比基线是gemini-3-flash-preview-thinking,评估维度是不同的预测步数(Step 1到Step 5)。

从跨所有任务的平均结果来看,循环世界模型在每个预测步数上都全面领先于gemini基线。在精确匹配上,Step 1时相对提升73.2%,Step 3时提升103.6%,Step 5时提升113.8%。这个趋势说明了一件事:随着需要预测的步数增加,推迟解码的优势越来越大。这和直觉是一致的——需要预测的未来越长,在脑子里先把整个序列推演清楚再解码的策略越有优势。

在"Boil"任务上,这个效果更加极端:Step 4时循环世界模型对gemini的精确匹配相对提升高达700.9%,BLEU提升503.5%,实体得分提升121%。"Chemistry"任务上,Step 1时相对提升267.1%,Step 4时相对提升367.6%。"Conductivity"任务上,Step 5时精确匹配相对提升233.3%,BLEU提升218.1%。

用表格呈现循环世界模型自身在不同步数上的绝对表现也很有说明意义:Step 1时平均精确匹配率67.2%,Step 2时68.6%,Step 3时68.0%,Step 4时68.4%,Step 5时68.4%。这说明循环世界模型的表现随着步数增加非常稳定,没有出现传统世界模型随步数增加而快速退化的问题。这正是谱稳定约束发挥作用的体现。

此外,研究团队还展示了一项在线人工评测的结果,场景是弹幕生成任务。在下一日留存率上,循环世界模型(LWM)相对基准线VLM提升了122%;在月度留存率上,提升更是达到了232.4%。在人工评测的四个维度上,循环世界模型在适切性(91 vs 56)、信息量(93 vs 72)、吸引力(90 vs 81)和类人性(86 vs 65)上全面超越基线VLM,综合雷达图的面积差异非常显著。

**十、站在更高的地方看:这个研究打开了什么新方向**

研究团队在论文结尾做出了一个有意思的断言:循环世界模型建立了一个全新的缩放维度,叫做"迭代潜在深度"。

过去,提升世界模型能力的方法无非两条路:增大模型规模(更多参数、更多层),或者增大训练数据量。这两条路都是要花真金白银的。这篇研究指出,还有第三条路:在参数量和数据量不变的情况下,通过增加推理时的循环次数,可以提升预测质量。这条路在推理阶段是可以动态调整的,不需要重新训练模型,代价相对低廉。

更重要的是,这条新维度与前两条路彼此独立、互不干扰。也就是说,你可以同时拥有一个参数量更大的模型、更多的训练数据、以及更多的迭代深度,三者的效果可以叠加。这为未来的世界模型研究打开了一个新的设计空间。

研究团队也坦诚地指出了当前工作的局限。论文目前主要呈现了在文本世界建模任务上的结果,在连续视觉环境上的验证还没有完整披露,尽管团队表示已经验证了训练可行性。对迭代深度作为缩放维度的完整缩放律分析也还没有呈现。这些都是未来工作的方向。

说到底,这篇研究最值得关注的地方,不仅仅是实验数字上的优势。更根本的是,它证明了一件以往被认为只属于语言模型领域的设计理念——让模型在潜在空间里反复迭代精化,而不是一次性前向计算——同样适用于世界模型。考虑到世界模型在强化学习、自动驾驶、具身智能、视频生成等领域的广泛应用前景,这个跨域的迁移可能带来的影响远不止于一两篇论文的范围。

当然,真正经受住时间检验的科学主张,还需要更多不同团队的独立复现和更系统的消融实验。感兴趣的读者可以通过arXiv编号2606.18208查阅完整论文,自行判断每一个论断的证据充分程度。

Q&A

Q1:循环世界模型(LoopWM)的参数量为什么能做到这么小,预测效果还不差?

A:循环世界模型的核心思路是"一套参数反复使用"。普通的深层模型每一层都有自己独立的参数,层数越多参数越多。循环世界模型只保留一个变换器模块,让信息在这个模块里转多圈,不同圈次共享同一套参数。这样100圈的计算深度,参数量可以等同于1层的规模,所以1B参数就能实现其他模型需要100B以上参数才能达到的计算深度,参数效率大幅提升。

Q2:循环世界模型的谱稳定约束是什么意思,为什么它对世界建模很重要?

A:简单说,谱稳定约束就是给模型的"记忆传递通道"加了一道数学上的硬性限制,强制每次传递时记忆强度必须小于1,而不是等于或大于1。这保证了模型在反复循环或连续预测成百上千步时,内部的数值不会越来越大直到爆炸。对世界建模来说,一个能跑几千步而不崩溃的稳定模型,远比一个只能跑几十步就出错的高精度模型更有实用价值。

Q3:推迟解码(Deferred Decoding)和普通世界模型的解码方式有什么区别?

A:普通世界模型每推演一步就要生成一次完整的预测输出(比如重建画面),相当于每走一步就要停下来画一幅完整的速写。推迟解码改为:先沿着整个动作序列一路推演,在潜在空间里积累状态,只在最后一步才生成完整输出。好处是节省了中间步骤的解码计算量,同时让模型能专注于理解跨步骤的状态变化逻辑,而不是在每步都分心重建视觉细节,长程预测质量因此提升。

来源于:https://www.163.com/dy/article/KVQODO8B0511DTVV.html    如有侵权请联系我们