里程碑时刻！蚂蚁推出业内首个100B扩散语言模型

快科技12月12日消息，“蚂蚁开源”公众号发文，蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型（dLLM），并同步公开技术报告。

这一发布打破了行业对扩散模型难以扩展的固有认知，实现了参数规模与性能的双重重大突破。

LLaDA2.0系列包含基于MoE架构的16B (mini) 和里程碑式的100B (flash) 两个版本，首次将扩散模型的参数规模成功扩展至百亿量级。

尤为引人注目的是，该模型在代码、数学及智能体任务上的性能超越了同级别的自回归（AR）模型。

通过蚂蚁创新的Warmup-Stable-Decay (WSD) 持续预训练策略，LLaDA2.0能够高效继承现有AR模型的知识储备，显著避免了从头训练的巨大成本。

在训练优化方面，LLaDA2.0结合了置信度感知并行训练（CAP）和扩散模型版DPO，不仅保障了生成质量，更充分发挥了扩散模型并行解码的先天优势。最终，模型实现了相比AR模型高达2.1倍的推理加速。

LLaDA2.0的成功有力证明：在超大规模参数下，扩散模型不仅完全可行，更能展现出比传统自回归模型更强的性能与更快的速度。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：鹿角

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>