
引言: 在业内关于多模态大模型的研究进展中,MLLMs 凭借强大的语言能力能够处理复杂的视觉问答和推理任务。但是,文本主导的注意力偏差和视觉信息在长推理链中的衰减,也成为制约 MLLMs 实现真正跨模态理解的瓶颈。这一发现正推动相关的研究从单纯的规模扩展,转向对多模态模型架构和推理机制等的进一步探索。
目录
01. 「只看字不看图」,MLLMs 视觉信息被忽略?
文本主导性跨越图像、视频、音频等不同模态,成为了 MLLMs 的普遍缺陷?当推理链延长,模型的注意力如何从视觉 Token「迁移」至语言 Token?…
02 . 万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?
「跨模态连接值」的指数衰减定律如何影响描述视觉信息在深层架构中的失效?…
03 . 从 MODA 的显式对齐到 Look-Back 的隐式引导,MLLMs 如何「纠偏」?
双通道注意力对齐通过什么机制来消除模态间的不一致?VAR 如何确保所有推理都基于可追溯的视觉事实?…
「只看字不看图」,MLLMs 视觉信息被忽略?
1、近年来,以 Transformer 架构为基础的多模态大模型(MLLMs)通过有效融合大语言模型的推理能力和视觉编码器的感知能力,在视觉问答、图像描述等任务表现上取得了进展。
2、然而有研究者发现,多模态大模型存在模态失衡的问题。这种失衡表现为 MLLMs 的内在注意力分配机制存在系统性偏差,过度依赖语言先验,并系统性地轻视或忽略同时输入的视觉信息。[2-1]
① 在复杂的推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息。
3、这种现象并非特定于某类多模态模型,而是普遍存在于以大规模预训练语言模型(LLM)为核心骨干的 MLLMs 中,包括视觉-语言模型(如图像-文本、视频-文本)、音频-语言模型、时间序列-语言模型和图数据-语言模型等多种模态对。[2-1]
4、同样地,有研究指出随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言 token 的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容。[2-2]
① 研究者对模型内部的注意力分布进行了系统分析后,认为模型推理的增强是以牺牲视觉关注为代价换取语言推理能力的提升。
5、具体来说,相较于非推理模型,R1 类推理模型在生成过程中显著减少了对视觉 token 的关注,取而代之的是将大量注意力分配给指令 token 与语言上下文。[2-2]
6、更为关键的是,这种「注意力迁移」并非固定偏差,而是随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理。[2-2]
① 在视觉聚焦任务中,非推理模型(Qwen2.5-VL)在多层均展现出对关键区域的稳定关注。
② 而 R1 模型(R1-OneVision)在同样问题下,注意力热图呈现出明显的视觉退化,深层几乎完全失焦。
③ 研究者还发现这一现象在模型进入「过度思考」阶段时表现得尤为明显。
7、这种衰减现象同样普遍存在于各类以 LLM 为核心的 MLLMs 中。例如,在视觉-语言模型中,深层解码器更关注文本语义,而视觉特征被压缩。在音频-语言模型中,音频细节在长序列推理中更容易被忽略。[2-2]
万亿级文本主导,MLLMs 深层推理下视觉累计误差被放大?
1、根据目前的研究工作,MLLMs 的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡。
2、MLLMs 核心是经过万亿级预训练的文本数据,这种超大规模的文本训练给予了 LLM 强大的语言先验、内在逻辑和通用知识。在多模态输入场景下,模型倾向于利用这种内在的、较为可靠的语言先验进行预测和生成。[2-1]
3、尽管视觉特征通过视觉编码器进行了高维表示,但与上述语言特征空间相比,其代表性不充足,容易被模型在融合初期被忽略或者抑制。[2-3]
① MLLMs 在跨模态注意力过程中,语言 token 往往分配到更高的注意力权重。
4、模态失衡也和模型训练目标的特性有关。相比于视觉数据,语言数据通常是高度抽象和紧凑的,这种特性导致模型在训练时倾向于采用偏向语言的「捷径学习」策略,也就是通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案。[2-3]
5、同时,当前 MLLMs 的训练通常使用文本生成损失来进行监督,这种损失函数主要聚焦于优化输出文本序列的质量,但对模型内部视觉通路的指导较为稀疏,这进一步强化了模型在不确定情况下依赖表现更好的文本特征进行预测的趋势。[2-4]
6、而对于视觉信息逐层衰减的问题,则和跨模态连接值的层级退化有关。…
关注👇🏻 「机器之心PRO会员」,前往「收件箱」查看完整解读

]article_adlist–>
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>