论文阅读-Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey
2025-09-08发布于论文随笔 | 最后更新于2025-09-09 18:09:00
arXiv原文链接Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey
基本知识
CoT定义
以下叙述中,P=prompt、S=instruction、Q=query、A=anwser、R=rationale
定义了从CoT到MCoT的过程,首先是普通的ICL(In-context Learning)及其输出特定回答序列的概率:
再是CoT的
MCoT相较于传统CoT,在\(\mathcal{R}\)中包含了除了语言信息外的其他模态信息。
思考范式
链-树-图的演变,总体呈现从线性依赖到分支探索、信息凝炼聚合、深层联系挖掘的趋势。
MLLM
单个模型的能力从image-text理解到video-text理解;从image/audio/video单种模态生成到多模态生成;从理解/生成到any-to-any。再到原生长推理模型。
各种模态上CoT的演变历史
Image
对图片模态的CoT设计最初是在生成最终的结果前进行一次中间推理生成,跟随这种范式,后续又有一些额外的设计:
- 多路并行链,最后进行投票,以增强推理的质量
- 用一个router动态选择思考方式
- 多图输入时,对图片间差异进行额外关注
- 推理节点之间构建hyperedge
接着,结构化推理机制开始发展,文本和视觉模态之间的关联交互在生成推理过程中被着重设计:
- 要求模型对兴趣区进行分析
- 在推理中加入图片的基本信息、外部知识背景
- 对静态图片的特征进行重新映射生成
- CoT中加入图片构成MCoT
Video
在视频意图QA中,往往采用精心设计的问题或多步任务让模型对视频内容进行解构,有zero-shot的,也有few-shot的。下面是一些常见的分解任务:
- 任务/目标识别
- 物体跟踪
- 动作分析
- 回答验证
- 带排名的回答
- caption生成
- bbox生成
3D数据
主要还是利用MCoT来将复杂任务分解,使得大模型能够完成3D数据相关的任务(物体流线形设计、3D形状生成)。也有尝试直接对齐子任务以实现主任务的方法(形状识别、功能推断、原因推理)。
MCoT具体方法汇总
从思考内容构建的角度,可分为:
- Prompt-based:通过精心设计的提示词让模型在推理过程中生成思考内容,一些提示词设计中会包含任务的示例
- Plan-based:让模型根据思考内容自行动态探索,并通过一定方式“搜索”最佳回答
- Learning-based:训练一个专门用于生成思考内容的模型,原生支持推理的大模型也在发展
从思考过程结构的角度,可分为:
- Asynchronous Modality Modeling:受神经科学启发,遵循“description then decision”策略,将感知和深层推理分步进行
- Defined Procedure Staging:通过预设的固定阶段pipeline分解特定任务,具有良好的可解释性
- Autonomous Procedure Staging:自动生成推理子任务,更贴近于具身智能
从增强信息获取的角度,可分为:
- Using Expert Tools:引入领域特色的工具
- Using World Knowledge Retrieval:例如推理时外挂知识库RAG
- Leveraging In-context Knowledge Retrieval
从理解粒度的角度,可分为:
- Coarse Understanding:普通的VQA、AQA任务,不注重细节,只问总体
- Semantic Grounding:对画面中的东西进行理解
- Fine-grained Understanding:对画面局部内容进一步理解,例如获取目标物品的bbox
从测试时scaling的角度。可分为:
- Slow-Thinking-based:内部/外部慢思考机制,事实上特点在于需要训练思考内容本身
- Reinforcement Learning-based:强化学习机制,特点在于思考内容本身通过端到端的奖励进行训练
(需要说明的是,各种模型并不是可以完全分到RL或普通慢思考两类中,往往是结合两种方法。例如deepseek在训练时仍会对思考内容进行SFT冷启动,也可以开启外部显式慢思考)
最后是MCoT的发展来时路: