DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

TL;DR

本文深度梳理了离散扩散语言模型(MDLM)的发展脉络。从 SEMDLM 的理论奠基,到 LLaDA 实现 100B 参数的 Scaling 验证,再到 2026 年初关于 DLM 十大挑战的宏观思考。文章重点剖析了 DLM 与自回归模型(ARM)的差异,介绍了 “DLM 规划 + ARM 执行” 等多种前沿混合架构,并探讨了 RL 后训练中的“灵活性陷阱”。核心观点认为:DLM 的真正潜力不在于并行推理,而在于其非线性推理、全局编辑与迭代修正的认知模式。


本来正打算写(学)一写(学) DLM 的,都看了一阵子了,突然刷到这么一篇论文:2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants[1],这是篇好论文呀。于是,就趁着这股东风,把一些观点一并梳理下。本文内容相对侧重观点介绍和梳理而非公式推导。另外,本文涉及的 DLM 并不是完整的,大部分时候仅指 MDLM,也就是 Masked Diffusion Language Models。

MDLM

提起 MDLM,最值得一提的论文是 Cornell 的《2406 Simple and Effective Masked Diffusion Language Models[2]》(下面用 SEMDLM代替),同期(真的是同一个月发布)还有另外两篇类似的论文,分别是:

人大的这篇从 score matching 角度出发,DeepMind 和 Cornell 的是从 variational inference 角度出发。Cornell 这篇的关键差异是:提出半自回归解码,可以生成任意长度文本,而非其他两篇的固定长度。

Cornell 这篇文章在相关工作中提到了和各种已有模式的对比。

  • 对比 D3PM:Google 的 D3PM[5](离散去噪扩散概率模型),一种适用于离散数据的类扩散生成模型,Masked diffusion 是 D3PM 的严格子集,SMDLM 专注 masking 噪声建模(而非构建一个通用离散扩散框架),并采用精心工程化的训练策略提升性能(结果显示这个操作对性能提升贡献最大)。
  • 对比 CTMC:牛津的 CTMC[6](连续时间马尔科夫链),将 D3PM 扩展到连续时间需要 CTMC 理论支持,SMDLM 为最常见的噪声过程(例如 masking 和均匀分布 π)提供了简单的连续时间形式化表达。
  • 对比 Score Estimation:基于 score 的扩散方法也可以扩展到离散状态,但通常仍依赖较复杂的 CTMC 理论,比如斯坦福的《1907 Generative Modeling by Estimating Gradients of the Data Distribution[7]》和《2310 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution[8]》(SEDD)。SMDLM 方法更加简单,还能从 MDLM 中直接提取 score,因此可兼容多种 score-based 技术。
  • 对比 BERT:Google 的 BERT[9] 本身不具备生成能力,不过之前有方法利用 Gibbs 采样或启发式方法使 BERT 具备生成能力, D3PM[5] 首次建立了 BERT 与 diffusion 的联系,其目标函数本质上是“逐步去 mask”。SMDLM 的目标函数更加稳定,实现更加简单。
  • 对比 LDM:LDM 在词向量空间上做高斯扩散,比如 《2305 Likelihood-Based Diffusion Language Models[10]》和《2205 Diffusion-LM Improves Controllable Text Generation[11]》,后续有工作将其扩展为 flow matching,以实现更快采样。DFM[12] 也将 flow matching 用于离散结构,并使用交叉熵损失, 目标函数虽然有效,但未加权,不能构成严格 ELBO。SMDLM 推导了一个紧致、理论上更严格的 log-likelihood 下界。

LLaDA

Scaling Law

前面提到的三篇论文建立了 MDLM 的基础理论,依然是人大(有几个作者就是之前那篇论文的;D)的 2410 Scaling up Masked Diffusion Models on Text[13] 引入了 MDLM 的 Scaling Law,证明其扩展速度与自回归模型(ARM)相当,且计算量差距相对较小。

如上图a所示,随着计算资源预算增加,MDM 的验证 loss 根据幂律逐渐减少,速率与 ARM 相似。然而,MDM 仍需约 16 倍的计算资源才能实现与 ARM 相当的效果。此外,最优模型大小也遵循与计算预算的幂律关系,如图b所示。在不同计算资源预算下,MDM 的最优规模约为 ARM 的一半,反映了利用参数容量时类似的缩放行为。

LLaDA初发

有了 Scaling Law 的支持,2025 年 2 月份发布了 LLaDA[14]Large Language Diffusion with mAsking),建模过程如下图所示。

整个过程可以看作去 Mask 的扩散过程。

LLaDA 认为 scalability 主要来源于 Transformer 架构、模型规模、数据规模,以及生成式建模原则(下式)所诱导的 Fisher 一致性之间的相互作用,而非具体的建模方式(AR 只是其中一种)。

另外,指令跟随和上下文学习能力似乎是所有在结构一致语言任务上的条件生成模型的内在属性,而不是自回归模型的专属优势。虽然自回归模型可以被解释为一种无损数据压缩器,但任何表达能力足够强的概率模型同样能够实现类似能力。

与 ARM 不同,LLaDA 通过一个前向过程和反向过程来定义模型分布:

  • 前向过程中,序列中的 token 会被逐步、相互独立地随机 mask,t=1 时整条序列被完全 mask。
  • 反向过程中,通过迭代预测被掩码 token,在 t=1 逐步到 t=0 的过程中,逐步恢复原始数据分布。
  • 对于 t∈(0,1),序列处于部分 mask 状态,其中每个 token 以概率 t 被 mask,1-t 保持未 mask。

LLaDA 的核心是一个 mask 预测器,模型以 xt 为输入,同时预测所有被 mask 掉的 token。训练时,仅在 mask 位置上计算交叉熵损失,如下式所示。

其中,x0 是一个训练样本,t 是从区间 [0,1] 均匀采样的连续变量,xt 由前向过程采样得到,L 表示序列长度。训练完成后,可以利用该 mask 预测器参数化地模拟反向过程,并将 t=0 时诱导得到的边缘分布定义为模型分布。上式的损失函数已被证明是 NIL(negative log-likelihood)的上界,使得目标函数具有理论依据。

这里重点介绍一下推理过程(可同步参考前面的 Sampling 图):

  • 给定提示词 P0,从一个完全 mask 的响应序列开始采样。采样总步数和生成长度都是超参数。生成结束后,出现在 EOS token 之后的内容会被丢弃。
  • 中间步中,从 t∈(0,1] 过渡到 s∈[0,t) 时,将提示词 P0 与当前状态一并输入 mask 预测器,同时预测所有被 mask 的 token
  • 对预测得到的 token 按期望比例 s/t 重新掩码。理论上重新掩码应该完全随机,但受 LLM 采样退火技巧启发,实际采用低置信度重掩码策略:即优先重新掩码置信度最低的 s/t 比例 token(即模型不确定的 token)。

LLaDA长成

值得一提的是,25 年 12 月,LLaDA 发布了 2.0:2512 LLaDA2.0: Scaling Up Diffusion Language Models to 100B[15],总参数量扩展至 1000 亿。两个月后,LLaDA 2.1 发布:2602 LLaDA2.1: Speeding Up Text Diffusion via Token Editing[16],以 892 tokens/秒的峰值速度火了一把。

LLaDA2.1[17] 创新性的提出了可纠错编辑机制,毫秒级起草采样整个答案,然后再进行检查修正,涵盖了 M2T 和 T2T 两种解码模式。另外,模型还同时支持质量和极速两种模式:

  • 极速模式:激进地降低初始生成的置信度阈值,快速出草稿,再通过编辑来保证质量。
  • 质量模式:采用保守策略,提高初始生成的质量,减少需要修正的错误。

另外,还引入 RL 后训练,提出基于 ELBO 的块级策略优化方法,专门针对可编辑解码结构进行了设计与适配。

DLM vs ARM

LLaDA 的成功看起来好像增加了一条新的架构范式,不过 LLaDA 2.1 发布之前,华为诺亚实验室的《2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants[1]》思考的更彻底。

为什么需要 DLM

其摘要中的一句话说的特别好:“However, the potential of DLMs remains largely untapped as they are frequently confined within AR-legacy infrastructures and optimization frameworks.”。基于此,文章提出 DLM 的十个核心挑战,并围绕基础设施建设、算法优化、认知推理、统一的多模态智能等四大支柱提出战略路线图。

要说 DLM,就不得不先说 ARM 的局限性:错误累积、缺乏全局结构的前瞻性、因果瓶颈(模型无法根据后续上下文对已生成的 token 进行修正);而全局结构的前瞻能力和迭代精炼能力正是 DLM 的优势所在。

不过,由于文本天然的离散化、类别化和高度结构化,使得“噪声”和“去噪”的定义比连续空间更加复杂,也导致效果一直不如 ARM。而且,DLM 往往被困在最初为 ARM 优化的架构和数据 pipeline 中,从而导致推理、优化和结构化推理方面的低效。这种局限在深度研究和 agentic 的场景中表现更加明显:这类场景要求模型维持长期目标、根据新检索到的证据修正早期假设,并迭代地完善结构化输出。此时,自回归范式暴露出根本性缺陷,而基于扩散的生成则为非线性推理、全局编辑和迭代式信念修正提供了更自然的基础。

这篇文章的目的就是做一个专门为 DLM 设计的原生生态系统。

十大挑战

挑战1:超越 AR 的高效推理架构

主要针对 AR 模式 KV-Cache 在 DLM 下的失效,需要一种原生支持双向、迭代式精炼而无需对整个序列重新计算的架构。

挑战2:分层的 Tokenizer

当前的 tokenizer 是“平坦”的、以统计为驱动的,缺乏人类认知中固有的结构层级。人类通常会以多尺度的方式理解文本——先从整体轮廓把握全局,再逐步精炼局部细节,而现有 DLM 被迫在统一粒度上运作。

挑战3:梯度稀疏

随机 mask 一定比例的 token 才产生损失,导致梯度反馈却稀疏且低效。稀疏监督还会导致预训练微调分布偏移问题(注意,和 BERT 的不一致问题不一样)。

挑战4:高级掩码策略:从通用到结构化功能主义

单一 MASK 范式虽然简洁优雅,但在功能上存在局限,因为它将所有 mask 位置视为等价,无法体现不同 token 在结构和逻辑上的重要性差异。缺乏考虑掩码位置间相互依赖的结构化机制,导致模型在恢复能力上缺乏功能多样性。

挑战5:动态输出长度与自适应终止

DLM 通常需要预先定义输出长度,导致计算上效率较低:对于简单任务可能被迫在冗长的序列窗口中运行;而对于复杂任务又可能因为过早截断而无法充分生成。

挑战6:数据工程:面向双向学习的数据构建

DLM 使用的是为 AR 模型整理的数据范式(强调序列连续性),然而,要充分释放双向去噪潜力,模型需要能够突出结构关系与多点依赖的数据。现有数据集并没有显式支持全局语义“锚点”的学习,导致 DLM 难以像连续图像域中那样,形成结构化理解能力。

挑战7:资源高效的模型优化

尽管 DLM 可以并行,但多次去噪过程依然有“迭代税”,导致延迟可能高于 AR 模型。而且,当批次增大时,扩散模型的全局注意力开销可能会抵消其速度优势。

挑战8:潜在思考与迭代式推理

LLM 中推理能力通常等同于 CoT,对于 DLM 这并不一定是最优方案。现有范式未能充分利用模型在去噪过程中对输出进行“再思考”或“编辑”的能力。

挑战9:结构化提示工程与上下文记忆

基于前缀的提示方式本质上是因果建模的产物,DLM 理论上可以与生成过程交错分布,或作为一种全局约束存在。目前仍缺乏一套标准化的“扩散原生提示”框架。

挑战10:统一的多模态架构

当前领域“理解”类任务通常依赖自回归架构,而“生成”则更偏向扩散模型。实现真正统一的架构仍是本领域最前沿方向。

战略洞见

支柱1:基础设施与结构性基础

面向非因果的高效重新设计。采用原生为扩散模型设计的注意力结构,如具备随机性感知的注意力机制,或与特定掩码模式绑定的部分 KV Cache。对 KV 结构进行根本性重构,使其能够支持非因果、迭代式更新,而无需冗余的全局重复计算。

多尺度 tokenzier 框架。Tokenizer 应反映人类语言的层级特性:高层 token 表示段落级语义桥接,低层 token 处理细粒度词汇细节,模型能够模拟分层思考过程。

支柱2:算法机制与优化

动态优化与效率。建议采用跨训练阶段动态演化的掩码比例,比如先使用高比例的全局掩码进行整体建模,再逐步过渡到低比例的局部精炼。推理效率方面,高潜力方向包括:多步轨迹蒸馏(将去噪步数压缩至 5 以内)和投机解码(小模型草稿,大模型精炼)。还可以采用混合式策略:DLM 负责长序列规划,AR 承担高吞吐执行。

功能化 mask 机制与弹性生成。引入多个具有专门语义的掩码 token(如[LOGIC-MASK][ENTITY-MASK],类似思想在 BERT 时代就有),结合先验信息建模依赖关系。同时,在去噪过程中直接融入 EOS 位置预测,让模型能够动态感知最优输出长度。

支柱3:认知推理与交互机制

扩散原生思维链。应当从线性、顺序式推理转向一种迭代式的“先纲要、后细化”的过程,即去噪阶段,模型应执行主动重掩码:识别低置信度 token 或逻辑不一致之处,并将其重新掩码后立即再生成。

脚手架式提示与上下文记忆。通过在序列中交错嵌入全局锚点 token,作为一种骨架式提示替代前缀式提示。RAG 和长期记忆也不再是顺序输入的前缀,而是非线性的检索线索,用于引导整体去噪轨迹的全局优化。

支柱4:数据工程与统一智能

扩散原生数据生态。数据工程的重心应当从单纯构建“序列”转向刻意组织“结构依赖关系”。这意味着需要在预训练语料中标注“锚点 token”和关键结构标志,以引导模型关注全局结构信息。SFT 和 RL 数据也要重新设计,要更加强调多点编辑与双向恢复,并通过奖励机制鼓励模型实现全局一致性与逻辑稳定性。

统一扩散基座路径。构建一种统一的扩散目标,将“理解”(高噪声去噪)与“生成”(低噪声去噪)视为同一连续谱上的不同阶段。

支柱5:DLM 作为 Agent 的认知核心

将深度研究型智能体视为前述四大支柱在系统层面的综合体现。深度研究不仅仅是文本的延伸,而是一种认知过程,其特征包括假设形成、证据汇聚、矛盾消解,以及对结构化成果的迭代式精炼。从这个视角看,DLM 为深度研究型 Agent 提供了更契合的基座,其基于去噪的建模方式天然支持非线性修订与全局结构编辑。相较而言,自回归生成通常需要完整的顺序式再生成,导致不必要的重复计算。

更重要的是,基于扩散的“潜在思考”机制提供了一种与研究活动认知动力学高度一致的推理方式。这种迭代式自我修正与内部一致性检验,类似一种隐式的“同行评审”过程,而这在严格因果式生成范式下难以实现。


总的来看,DLM 的关键根本不是性能(并行),而是模式!其中,个人感觉印象最深刻的是多尺度 tokenizer 和扩散原生数据及相应的任务设计。虽然是三点,但其实就是一点——数据结构。另外注意,这里 DLM 并不一定是 MDLM。

Hybrid

刚刚提到的 DLM 前景看起来相当美好,而且改造的确实比较“彻底”,想来已经有不少机构在钻研了。不过,如果立足当下,是不是可以搞一些混合架构呢?答案是肯定的,本节我们就来看几种混合搞法。

DLM Think + ARM Evaluate

不同于《2402 Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models[18]》的纯 Diffusion CoT,《2510 Diffuse Thinking: Exploring Diffusion Language Models as Efficient Thought Proposers for Reasoning[19]》用 DLM 生成多样化的推理候选方案,然后利用 ARM 输入处理高效(输出成本较高)和语义理解能力较强的特点,评估和筛选中间推理结果。DLM 与 ARM 的协作是在完整“推理思维”层展开,形成协同增益的共推理范式。

如图所示,文章提出生成–评估树结构推理框架:

  • DLM 生成一组候选解集合 P。
  • 拼接 q+P,构造为 LLM 的提示词。
  • LLM 在一次前向推理中同时评估所有候选。
  • 选择概率最高的候选。

DLM Think + ARM Talk

如果说上面的 Diffuse Thinking 看起来比较”硬“,那 NVIDIA 的《2511 TiDAR: Think in Diffusion, Talk in Autoregression[20]》就比较有意思了,它结合了 DLM 的并行生成潜力 + ARM 更好的生成质量,将两者统一到一个架构下:在扩散范式中进行 token 草稿生成,以自回归方式对最终输出进行(拒绝)采样。

而且,通过精心设计结构化注意力掩码,TiDAR 可以在一次模型前向传播中同时完成两个过程:一方面对上一步的草稿 token 进行最终采样;另一方面并行地为下一步预生成。其核心机制是在序列的不同部分之间切换不同的注意力模式:

  • 对于上一步已生成的干净 token,采用因果注意力进行编码,以保持自回归一致性;
  • 对于用于下一步扩散预生成的 mask token,采用块因果注意力,即块内双向块间因果的结构,实现单步扩散式的并行预草稿生成。

当某个前缀被接受后,对应的预生成候选即可直接选取并接续生成。缓存机制方面,所有通过因果路径前向计算的 token 都会写入 KV cache;若后续这些 token 未被接受,其对应的缓存条目将被清除,避免无效计算占用显存。

如图所示,训练时(左图),采用了一种特殊的训练掩码(block length = 3),在输入 token 后附加等长的 mask token。对于干净的输入 token,使用因果自注意力;而对于 mask token,则在各自块内采用双向注意力,并同时能够关注到前缀内容。推理时(右图),根据当前步骤的前缀,从预先初始化好的注意力掩码中裁剪出相应子掩码进行使用。简单来说,DLM 从边际分布并行生成 3 个草稿 token(并行预起草,one-step diffusion,不需要多步),ARM 对 next token 进行最终采样确认(即拒绝采样,判断上一步草稿 token 是否与当前步自回归联合分布预测一致)

注意,TiDAR 和 MTP、投机(推测)解码不同。MTP 在草稿阶段并未充分利用基础模型,而且由于草稿模型容量较低,预测能力有限,可能需要更多顺序验证(依赖基础验证模块顺序校验),导致其最大加速效果受到限制。从投机解码角度看,TiDAR 的主要优势之一在于它仅使用一个模型,就能在单次前向推理中同时完成草稿和采样。

总的来说,在 TiDAR 中,

  • 草稿模型就是基础模型,容量高、能力强。
  • 草稿扩散并行。
  • 草稿和验证过程在单次前向推理中并行进行。

而且,与 DLM 不同的是,在解码时不需要调整任何超参数。

另外,关于位置,AR 对应的自然是 next token,但 DL 就是原来的 token。而且,值得一提的是,这里所有的 token 都被设置为 mask(而不是一定比例),消除了选择最佳掩码策略的繁琐问题,而且能对每个 token 计算损失。好处是:

  • 扩散损失变得更加密集。
  • 扩散损失与 NTP 损失平衡更加简单,因为现在两者的损失项数量一致(都是序列长度)。
  • 推理阶段可以一步扩散,使草稿过程比多步去噪更加高效。

这个有消融实验,效果是比 random mask 要好的。

最终的 Loss 如下:

其中,α 是 loss 平衡因子,文章大多数设置下 α = 1。

总的来说,这篇文章我个人很喜欢,质量不错。

Latent DLM Plan + ARM Generate

这篇文章《2602 Stop-Think-AutoRegress: Language Modeling with Latent Diffusion Planning[21](STAR-LDM)》从人类写作方式出发:频繁停顿、反思、提前规划并反复修改文本,以确保整体连贯性、风格一致性以及对全局目标的遵循。标准自回归每一步都做出不可逆的局部决策,从根本上限制了其进行长程规划或对生成过程进行动态控制的能力。很难保证生成文本在全局层面满足复杂约束、保持一致的人设风格,或规避不良内容。

STAR-LDM 的做法是引入 Latent Plan,如下图所示。

我们来看一下这个架构,

  • 紫色部分就是我们熟悉的 ARM,不多说。
  • 蓝色的冻结部分是一个 Sentence-T5-XL,很显然是用来 Latent 表征的。
  • 绿色部分是两个 DiT,就是 Diffusion 部分了,用来生成 Latent 表示指引下一个 Token 生成。

生成

包括三个步骤:

  • Stop:AR 处理输入提示。
  • Think:先采样初始噪声,然后基于前缀提示迭代去噪,获得一个语义 Plan 表征。
  • AutoRegress:语义 Plan 进第一个 DiT 得到软提示,然后与前缀一起作为条件,引导 AR 完成后续生成。

训练

步骤如下:

  • 采样文本片段,随机切分为 prefix 和 continous 两部分。
  • prefix 就是标准的自回归,不多说。
  • continous 被 Sentence-T5 标准成 clean latent,然后加噪得到 zt = αt×Zdata + σt×ε,
  • zt 经过第一个 DiT 得到软提示。
  • 扩散去噪阶段,软提示 + 前缀进第二个 DiT 得到 latent 表示。
  • 恢复到标准自回归。

损失包含两部分:L = L_LM + βL_DM

其中,p 是 prefix 长度。

其中,Ɛ 是噪声。注意,这里加噪实际采用 v-prediction 模式[22]

1
2
3
4
5
6
# https://github.com/justinlovelace/STAR-LDM/blob/main/star_ldm/diffusion/diff_utils.py#L24
def predict_v_from_start_and_eps(x, noise, alpha2):
v = alpha2.sqrt() * noise - x* (1-alpha2).sqrt()
return v

v_target = predict_v_from_start_and_eps(sentence_emb, eps, alpha2)

个人觉得这种模式也比较有意思,就是搞起来感觉麻烦了一些。当然,反过来也是一种即插即用的设计,扩散的引导可以是 prefix,也可以是其他可控制模块。

另外要注意的是,此“Plan”其实是对未来 Token 的 Plan,并非常规意义理解的 “Plan(规划)”,它更多是一种“隐式”地对未来输出内容的一种表示。

CARDM

这个思路是从数据和训练角度把 DLM 强行 ARM 化,也是比较有意思的,来自《2601 Causal Autoregressive Diffusion Language Model[23]》,做法如下图 D 所示。

其模型还是 DLM,但是建模方式是 ARM,可并行生成多个 token,如下所示。

看起来和《2503 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models[24](BD3LM)》有点类似,不过 BD3LM 会引入显著的计算开销:为了实现按块训练,需要构造复杂的注意力掩码。而且,固定块大小无法适应自然语言中固有的信息密度变化,限制了动态并行能力的发挥。

不过,在扩散框架中严格施加因果约束会引入一种独特的病态状态,CARD 中称之为“信息坍塌”。

双向架构中,每个 token 都可以关注完整的全局序列,即使某个局部区域被大量 mask,模型仍然可以利用未来 token 作为锚点进行预测,从而在不同位置之间维持相对均匀的信息密度

但在因果 mask 下,token 的可见上下文被严格限制为其前序 token,造成了严重的信息不对称:历史较短的早期 token 极易受到噪声或破坏的影响——开头的几个 token 被 mask,预测后续 token 在数学上几乎等价于随机猜测。标准的均匀扩散策略忽视了这种不对称性,将早期 token 的“盲猜”与后期 token 的“信息充分”预测同等对待,强迫模型在这些无效上下文上最小化损失,会导致高方差梯度和优化不稳定。

为了解决 causal diffusion 的稳定性问题,CARD 提出了 soft-tailed 掩码机制和一个上下文敏感 reweighting 机制。

soft-tailed 掩码机制

很简单,就是将所有扰动集中在序列尾部……

Context-aware Reweighting

当前缀被大量 mask 时,条件熵会急剧上升,在这种高度不确定性的情况下仍强迫模型给出确定性预测,会导致梯度噪声增大以及优化过程不稳定。

扩散模型基于 ELBO 采用一种全局加权策略(比如 MDLM 的 1/t),在序列层面平衡不同噪声水平的贡献。但对因果模型来说,全局加权并不足够,因为有效噪声水平在每个 token 位置 n 上是局部变化的。上下文敏感 reweighting 从三个维度评估上下文的歧义性:

  • Quantity:历史中的总噪声 token 数量。
  • Distance:噪声与目标位置的接近程度。
  • Density:连续受损的程度。

消融结果表明,这两种机制都非常关键,如下表所示。

注意,Strict Tail 设置中,序列末尾是一整块连续噪声区域;Relaxed Window 则在尾部窗口内允许干净 token 与噪声 token 混合;Random 则是整个序列随机,没有尾部 mask。

基于置信度的分块采样

推理时,先在序列尾部追加 K 个 mask token 进行初始化,执行迭代式并行去噪:每次迭代只有某个 token 的预测概率超过阈值 τ 时才会更新该位置。最后,将生成完成的块加入 KV cache。可以灵活调节的参数包括:

  • 块大小 K
  • 置信度阈值 τ
  • 最大迭代步数限制 Tmax

RL Post-Train

本来对 DLM 就不太熟,后训练就更没做过了,不过正好看到一篇很有意思的 paper:《2601The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models[25](JustGRPO)》,而且最近一年也一直在做后训练,就顺便记录一下。

理论上来说,无约束生成序是固定自回归轨迹的超集,这种灵活性暗示了更优越推理的潜力:可能解锁更优的问题解决路径。JustGRPO 给出了一个很反直觉的事实:任意顺序生成并没有扩展 DLM 的推理边界,相反缩小了它们的推理能力范围。因为 DLM 往往会利用生成顺序的灵活性,刻意绕开那些具有高度不确定性、但对探索过程至关重要的 token(高熵)。AR 则会迫使模型正面应对这种不确定性,通过在分叉点进行采样,模型能够探索不同的推理路径,从而保留生成推理过程的多样性。

也就是说,模型“偷懒”了,会优先完成那些低熵、容易预测的部分,等到后面要去补那些跳过的高熵分叉点时,已经建立起来的双向上下文已经限制住了可能的分支空间。本章称这一现象为“熵退化”,有点 decoding hack 的感觉。

JustGRPO 在证明了对于通用推理任务,激发模型的推理潜力并不需要复杂的、扩散特定的强化学习改造后,直接简单地将 DLM 当作自回归模型来处理。这样还无需额外技巧或复杂机制,而且推理阶段还能继续保留 DLM 的并行解码能力。总的来说,JustGRPO 认为任意生成顺序的灵活性,本质上是一种用于推理阶段利用的机制,而非用于推理探索的机制。

DLM 在 RL 时的灵活税

这里分析了灵活性的三个痛点:

  • Token 级别的“贡献度”算不清楚。在 AR 中,每一个生成的 token 都有明确的概率,可以清晰地算出重要性采样比率。但在 DLM 中,生成状态是带噪声的序列,去噪的路径也是随机的,同一个词,可能是先生成的,也可能是后生成的,路径不唯一,导致模型无法给出一个确定的、对齐的条件概率。这导致很难判断具体是哪一个生成步骤导致了最后的奖励。
  • 算不出真正的似然函数。AR 就是简单的连乘,但 DLM 要算出一句话的真是概率理论上需要把所有可能的去噪路径全部加起来。长度为 N 的序列,路径总数是 N!,所以只能使用 ELBO 替代,这虽然能算,但毕竟是近似值,存在偏差。
  • 训推不一致。训练时的优化目标是针对原始模型分布的,但采样时,为了让模型更好地探索,通常会用一些启发式策略选择几条高效路径。

总的来说,DLM 太灵活了,会导致训练难度大大增加。

JustGRPO具体做法

做法很简单,将未来的 token 都 mask,并且只关注下一个 token(虽然预测时是所有 token 都输出)。也就是说,就模型架构不一样,其他和 AR 其实没区别了。

说到这里,又想起前阵子看到的一篇也是关于顺序的文章《2601 Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow[26]》,这文章专门研究 MDLM 并行强度和生成顺序的,没仔细看,不过它也有一个有意思的观点:在高并行度设置下,MDLM 与 AR 的性能差距主要是由于架构限制——即 MDLM 在表达高度依赖结构时存在表征能力瓶颈。

另外,在 MDLM 中,并行解码更倾向于生成通用的格式结构与话语框架,并行生成的 token 高度模板化且几乎不带来语义信息增益。也就是说,并行优势主要体现在低依赖结构,而非高依赖语义推理。

而生成顺序则表现出一种清晰的层级化模式:先生成结构锚点(结构性骨架)——即通过识别全局确定性较高的部分来搭建整体框架——随后再逐步细化和补充复杂的修饰成分(细粒度细节)。

MDLM 的这种特性使其天然适合“先生成后编辑的范式”,即初期阶段进行更大胆的概率探索,随后通过高效的并行编辑批量修正偏差。这种范式可以减轻依赖性损失,同时保持并行解码的效率。

总的来说,就目前来看 MDLM 还不太可能是 AR 的替代,更多的是一种补充或新的范式。但无论如何,对整个行业来说,百家争鸣肯定优于一枝独秀,期待更多的创新研究。

Summary

本文从 MDLM 出发,引入现在比较火热的 LLaDA,进一步对 ARM 和 DLM 进行对比,并重新思考了 DLM,随后介绍了近期的集中 DLM 和 ARM 结合的 hybrid 框架,最后介绍了 DLM 的 RL 后训练,并由此分析了“任意顺序”对性能的影响。

说了这么多,不知道大家对 DLM 怎么看?我本人对 DLM 实在研究不多,这里先妄自尊大发表一点点自己的看法,期望能与大家进一步交流。

总的来说,我个人总是感觉 MDLM 看起来有一点点怪怪的,感觉硬套 AR 模式,就像用 2018 年那会儿用 BERT 做生成任务那种感觉。直觉来看,这应该不是最终形态,可能只是工程折中。

另外,所有强行将 DLM AR 化的做法都感觉怪怪的,说白了,DLM 的关键其实并不是并行,而是模式。这点我们在前面《DLM vs ARM》最后提到过,所以如果只是强行 AR 化就有点“意义不大”(感觉硬凑或打补丁)。个人反倒觉得 DLM Think 这个角度不错,尤其是 Latent Think——看起来更加符合直觉,Token Think 看起来着实有点邪修,而且现在越来越邪……

最后,既然提到 Latent 了,是不是 Enc-Dec 架构也比较直观呢,会不会重新“复兴”?

好吧,就说这些,连想法都算不上,顶多算一种感觉,欢迎一起讨论;D。

Reference

[1] 2601 Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants: https://arxiv.org/abs/2601.14041
[2] 2406 Simple and Effective Masked Diffusion Language Models: https://arxiv.org/abs/2406.07524
[3] 2406 Simplified and Generalized Masked Diffusion for Discrete Data: https://arxiv.org/abs/2406.04329
[4] 2406 Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data: https://arxiv.org/abs/2406.03736
[5] D3PM: https://arxiv.org/abs/2107.03006
[6] CTMC: https://arxiv.org/abs/2205.14987
[7] 1907 Generative Modeling by Estimating Gradients of the Data Distribution: https://arxiv.org/abs/1907.05600
[8] 2310 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution: https://arxiv.org/abs/2310.16834
[9] BERT: https://arxiv.org/abs/1810.04805
[10] 2305 Likelihood-Based Diffusion Language Models: https://arxiv.org/abs/2305.18619
[11] 2205 Diffusion-LM Improves Controllable Text Generation: https://arxiv.org/abs/2205.14217
[12] DFM: https://arxiv.org/abs/2402.04997
[13] 2410 Scaling up Masked Diffusion Models on Text: https://arxiv.org/abs/2410.18514
[14] LLaDA: https://ml-gsai.github.io/LLaDA-demo/
[15] 2512 LLaDA2.0: Scaling Up Diffusion Language Models to 100B: https://arxiv.org/abs/2512.15745
[16] 2602 LLaDA2.1: Speeding Up Text Diffusion via Token Editing: https://arxiv.org/abs/2602.08676
[17] LLaDA2.1: https://mp.weixin.qq.com/s/XEG5MQMHaOXO-IRY6O09Vg
[18] 2402 Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models: https://arxiv.org/abs/2402.07754
[19] 2510 Diffuse Thinking: Exploring Diffusion Language Models as Efficient Thought Proposers for Reasoning: https://arxiv.org/abs/2510.27469
[20] 2511 TiDAR: Think in Diffusion, Talk in Autoregression: https://arxiv.org/abs/2511.08923
[21] 2602 Stop-Think-AutoRegress: Language Modeling with Latent Diffusion Planning: https://arxiv.org/abs/2602.20528
[22] v-prediction 模式: https://arxiv.org/abs/2202.00512
[23] 2601 Causal Autoregressive Diffusion Language Model: https://arxiv.org/abs/2601.22031
[24] 2503 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models: https://arxiv.org/abs/2503.09573
[25] 2601The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models: https://arxiv.org/abs/2601.15165
[26] 2601 Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow: https://arxiv.org/abs/2601.15593