快科技11月28日消息,据媒体报道,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。
该论文聚焦于大模型的核心组件——注意力机制,首次在业内系统性地解密了“注意力门控机制”对模型性能与训练效率的关键影响。
这一突破性发现被业内人士广泛认为是解决当前大模型训练瓶颈的重要一步,将有力推动整个AI大模型技术的进步。

作为人工智能领域的顶尖盛会,NeurIPS曾孕育出Transformer、AlexNet等里程碑式成果。本届会议吸引了谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖机构参与,投稿竞争异常激烈,接收率仅约25%,而最终评选出的最佳论文更是凤毛麟角,仅4篇入选,概率不足万分之二,代表了当前全球人工智能领域最具价值和影响力的前沿研究。
门控机制常被喻为模型的“智能阀门”,其核心作用是帮助模型高效过滤冗余信息,从而提升模型表现。近年来,从AlphaFold2到Forgetting Transformer,学术界和工业界已开始探索将门控机制融入注意力模型。然而,门控在注意力中发挥效用的深层原理及其在大规模训练中的实践效果,始终是未解之谜,缺乏系统性的实证研究。
此次,通义千问研究团队通过严谨的大规模实验填补了这一空白。他们在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验的训练数据量最高超过3.5万亿tokens。
通义千问团队表示,对门控注意力机制的深入理解,不仅为未来大语言模型的架构设计开辟了新思路,也为构建更稳定、高效和可控的大模型奠定了坚实的理论基础。
目前,阿里通义千问已开源超过300款模型,覆盖全模态、全尺寸,全球累计下载量突破7亿次,衍生模型数量超过18万个,其开源生态的规模和影响力位居全球首位。

【本文结束】如需转载请务必注明出处:快科技
责任编辑:鹿角
]article_adlist–>
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>