懒懒笔记 | 课代表带你梳理【RAG课程 13&14:多模态突围与综合论文问答系统实战】

维权提醒:如果你或身边的朋友近五年内因投顾公司虚假宣传、诱导交费导致亏损,别放弃!立即联系小羊维权(158 2783 9931,微信同号),专业团队帮你讨回公道!


“缓存搞定了、异步也安排了,RAG 终于跑得飞快……但它真的能看懂图了吗?”

🙋‍♀️ “PDF 里的图表,怎么总像谜语人?”

🙋‍♂️ “论文里密密麻麻的公式,是让人看,还是让人头疼?”

别急,前面几讲我们刚把 RAG 提速到起飞,这次——直接上天看图表!

第13、14讲,火力全开攻克“多模态”难题,聚焦如何让 RAG 看图识表、解读论文、图文并茂输出高质量答案!

​为什么要引入多模态?​

  • ​现实痛点​​:合同、论文、产品手册中,50%关键信息藏在图表里(如论文实验数据、财报统计图)
  • ​传统局限​​:纯文本RAG处理PDF时,图片=空白,表格=乱码(全靠OCR硬扛,效果看命💔)
  • ​解法​​:引入多模态大模型(MLLM),让AI像人类一样​​图文协同理解​

基本原理

​层级​

​核心任务​

​技术方案​

​关键突破​

感知层

​(特征提取)

多模态→统一向量化

• 图像:CNN/ViT

• 音频:频谱Transformer

• 文本:BERT/GPT

• 视频:帧序列编码

打破模态壁垒

异构数据统一表达

​ 对齐层​

(语义映射)

跨模态语义关联

MLP投影:非文本向量→文本空间

跨模态注意力:图文向量互作

混合输入:图像Patch+文本Token融合

建立“猫图”=“猫”的语义等价性

理解层

​(推理生成)

多模态协同推理

• LLM整合信息→语言建模驱动

• 输出:图文/音视频多态内容

• 任务:问答/描述/创作

实现“看CT说病情”类人认知

多模态智能 = 特征编码 ⊕ 语义对齐 ⊕ 语言推理(⊕ 代表跨模态融合运算符)

模型架构

模态编码器(Modality Encoder)

⚒️作用:将不同模态的数据(如图像、音频、视频、文本)转为向量表示(embedding)

📌特点:每种模态使用专门模型编码

  • 图像:CNN / ViT

  • 音频:语音模型(如 Whisper)

  • 文本:语言模型(如 BERT / T5)

连接器(Connector)

⚒️作用:将非文本模态的向量,对齐到文本 embedding 的语义空间,解决“语义壁垒”问题

📌常见连接方式

  • MLP 映射:简单高效,常用于基础场景

  • Cross-Attention 映射:复杂任务下模态间深度交互的利器

  • 模型内部融合:将图像 patch 和文本 token 混合输入,底层结构级融合(如 Flamingo、BLIP 模型)

语言模型(LLM)

⚒️作用:接收已对齐的统一向量,完成理解和生成任务

📌能力体现

  • 图文问答

  • 多模态总结

  • 推理与生成

主流开源模型

🎯 判别式范式(Discriminative Paradigm):以 CLIP 为代表,侧重于学习图文匹配与对齐,主要用于图像分类、检索等任务;

🧙‍♂️ 生成式范式(Generative Paradigm):以 OFA、VL-T5、Flamingo 等为代表,强调跨模态生成,如图像描述、视觉问答等。

在LazyLLM中使用多模态大模型

代码实现

import lazyllm

chat = lazyllm.OnlineChatModule(source="glm", model="glm-4v-flash")
lazyllm.WebModule(chat, port=23333, files_target=chat).start().wait()

效果展示

多模态RAG揭秘​

整体架构

🧩 修改的模块包括:

  • 检索模块:原本仅支持文本检索,现在需要扩展为支持多模态检索,例如图像、音频等信息的索引和匹配。
  • 生成模块:原始 RAG 仅针对文本生成,现在需要扩展支持多模态输出,如文本结合图像、音频的生成能力。

核心组件

🌉 在原有组件上新增以下组件:

组件

功能

多模态编码器

用于对不同模态的数据(文本、图像、音频等)进行编码,以便统一表示并用于检索和生成。

多模态融合器

用于融合不同模态的信息,使其能够协同作用,提高生成内容的准确性和丰富度。

跨模态检索器

支持输入多种数据格式,并能在多模态知识库中找到相关信息。

多模态解码器

负责将生成结果解码为多种形式,如文本、图片、语音等,以适应不同的输出需求。

​基于 PDF 文档的多模态 RAG

基于OCR文档解析的图文RAG系统流程包括文档解析、多模态嵌入以及查询与生成三个关键步骤。

文档解析

1️⃣ PDF 是啥?

  • 一种跨平台、排版固定的文档格式,支持文本、图片、表单、视频等内容,广泛用于办公和学术场景。

2️⃣ 两种常见 PDF 类型:

  • 机器生成型:内容可选中、可搜索,适合直接用工具解析。
  • 扫描生成型:本质是图片,需 OCR 技术识别文字。

3️⃣ 怎么解析?

  • 机器 PDF:可用 pdfminerpdfplumber 等 Python 工具提取结构化文本、表格等信息。
  • 扫描 PDF:需用 OCR 工具(如 Tesseract、PaddleOCR)识别文字,复杂场景可用 LayoutLM 等深度模型提升识别效果。

4️⃣ 结构保留也很重要:

  • 仅提取文本远远不够,文档的段落结构、标题层级、表格排版等信息对语义理解同样关键,因此还需要布局分析(如使用 LayoutLM 等模型)。

5️⃣ 推荐工具:magic-pdf

  • 集成了文本提取、结构恢复、表格/公式分析等功能,一站式解析 PDF,为多模态理解打好基础。

多模态嵌入

左侧为利用多模态模型进行映射方法,右侧为统一数据模态后进行向量嵌入方法

1️⃣ 直接嵌入统一空间

  • 用多模态模型(如 CLIP、VisualBERT)将图像、文本一同编码进同一个向量空间,实现语义对齐。适用于图文结合的检索和生成任务,保留原始模态信息更完整。

2️⃣ 先转文本再嵌入

  • 图像、表格等非文本内容先转成文本(比如描述语句或结构化语言),再用文本嵌入模型处理。可复用成熟文本工具,但可能损失部分细节。

两者选择取决于:

  • 想保留原始信息 → 用第一种;
  • 侧重统一处理流程 → 选第二种。

无论哪种方式,都可与文本 RAG 兼容,修改入库流程即可实现最基础的多模态 RAG。

🖼️ 图片自动生成问答对

借助如 InternVL-Chat 这样的多模态大模型,图片中的关键信息(标题、数据、趋势等)可被自动提取,并生成相关问题与答案,帮助系统理解图像内容、补足文档信息。比如看图秒懂论文结论,不再靠猜。

生成图文并茂的响应

  • 图表格式化保存:解析文档时提取图像及其描述,并以 Markdown 格式保存(如:![描述](图像URL)),方便后续展示。
  • 节点类型分类:检索返回结果后,识别哪些是图像节点,为生成环节做好准备(例如生成图像相关内容或链接)。
  • 提示词优化:在生成答案时,加入指令提示大模型:如果涉及图像内容,需输出对应链接和解释说明。

多模态内容向量化效果优化技巧

文本补全:结合图像标题与注解等文本信息

  • 策略:将图像描述 + 标题 + 图注 拼接后,送入联合编码模型(如 CLIP)统一向量化。
  • 示例及效果:

结构化生成:预先从多模态数据中提取 QA 对

  • 策略
    • 用 OCR、图像解析等提取关键信息;
    • 调用大模型生成 QA 对或摘要,补充至向量库。
  • 示例:
未经允许不得转载:紫竹林-程序员中文网 » 懒懒笔记 | 课代表带你梳理【RAG课程 13&14:多模态突围与综合论文问答系统实战】

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的

登录

注册