论文阅读-Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

2025-09-08发布于论文随笔 | 最后更新于2025-09-09 18:09:00

MCoT CoT MLLM LLM

arXiv原文链接Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

基本知识

CoT定义

以下叙述中,P=prompt、S=instruction、Q=query、A=anwser、R=rationale

定义了从CoT到MCoT的过程,首先是普通的ICL(In-context Learning)及其输出特定回答序列的概率:

$$ \mathcal{P}_{\text{ICL}} = \{ S, (x_1, y_1), \ldots, (x_n, y_n) \} $$
$$ p(\mathcal{A} \mid \mathcal{P}_{\text{ICL}}, Q) = \prod_{i=1}^{|\mathcal{A}|} \mathcal{F}(a_i \mid \mathcal{P}_{\text{ICL}}, Q, a_{<i}) $$

再是CoT的

$$ \mathcal{P}_{\text{CoT}} = \{ S, (x_1, e_1, y_1), \ldots, (x_n, e_n, y_n) \} $$
$$ \begin{aligned} p(\mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) &= \prod_{i=1}^{|\mathcal{R}|} \mathcal{F}(r_i \mid \mathcal{P}_{\text{CoT}}, Q, r_{<i})\\ p(\mathcal{A} \mid \mathcal{P}_{\text{CoT}}, Q, \mathcal{R}) &= \prod_{i=1}^{|\mathcal{A}|} \mathcal{F}(a_i \mid \mathcal{P}_{\text{CoT}}, Q, a_{<i})\\ p(\mathcal{A}, \mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) &= p(\mathcal{A} \mid \mathcal{P}_{\text{CoT}}, Q, \mathcal{R}) \cdot p(\mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) \end{aligned} $$

MCoT相较于传统CoT,在\(\mathcal{R}\)中包含了除了语言信息外的其他模态信息。

思考范式

CoT思考范式演变

链-树-图的演变,总体呈现从线性依赖到分支探索、信息凝炼聚合、深层联系挖掘的趋势。

MLLM

单个模型的能力从image-text理解到video-text理解;从image/audio/video单种模态生成到多模态生成;从理解/生成到any-to-any。再到原生长推理模型。

MLLM总体结构

各种模态上CoT的演变历史

应用任务

Image

对图片模态的CoT设计最初是在生成最终的结果前进行一次中间推理生成,跟随这种范式,后续又有一些额外的设计:

  • 多路并行链,最后进行投票,以增强推理的质量
  • 用一个router动态选择思考方式
  • 多图输入时,对图片间差异进行额外关注
  • 推理节点之间构建hyperedge

接着,结构化推理机制开始发展,文本和视觉模态之间的关联交互在生成推理过程中被着重设计:

  • 要求模型对兴趣区进行分析
  • 在推理中加入图片的基本信息、外部知识背景
  • 对静态图片的特征进行重新映射生成
  • CoT中加入图片构成MCoT

Video

在视频意图QA中,往往采用精心设计的问题或多步任务让模型对视频内容进行解构,有zero-shot的,也有few-shot的。下面是一些常见的分解任务:

  • 任务/目标识别
  • 物体跟踪
  • 动作分析
  • 回答验证
  • 带排名的回答
  • caption生成
  • bbox生成

3D数据

主要还是利用MCoT来将复杂任务分解,使得大模型能够完成3D数据相关的任务(物体流线形设计、3D形状生成)。也有尝试直接对齐子任务以实现主任务的方法(形状识别、功能推断、原因推理)。

MCoT具体方法汇总

思考内容构建方式

从思考内容构建的角度,可分为:

  • Prompt-based:通过精心设计的提示词让模型在推理过程中生成思考内容,一些提示词设计中会包含任务的示例
  • Plan-based:让模型根据思考内容自行动态探索,并通过一定方式“搜索”最佳回答
  • Learning-based:训练一个专门用于生成思考内容的模型,原生支持推理的大模型也在发展

思考过程结构方式

从思考过程结构的角度,可分为:

  • Asynchronous Modality Modeling:受神经科学启发,遵循“description then decision”策略,将感知和深层推理分步进行
  • Defined Procedure Staging:通过预设的固定阶段pipeline分解特定任务,具有良好的可解释性
  • Autonomous Procedure Staging:自动生成推理子任务,更贴近于具身智能

信息获取方式

从增强信息获取的角度,可分为:

  • Using Expert Tools:引入领域特色的工具
  • Using World Knowledge Retrieval:例如推理时外挂知识库RAG
  • Leveraging In-context Knowledge Retrieval

理解粒度方式

从理解粒度的角度,可分为:

  • Coarse Understanding:普通的VQA、AQA任务,不注重细节,只问总体
  • Semantic Grounding:对画面中的东西进行理解
  • Fine-grained Understanding:对画面局部内容进一步理解,例如获取目标物品的bbox

从测试时scaling方式

从测试时scaling的角度。可分为:

  • Slow-Thinking-based:内部/外部慢思考机制,事实上特点在于需要训练思考内容本身
  • Reinforcement Learning-based:强化学习机制,特点在于思考内容本身通过端到端的奖励进行训练

(需要说明的是,各种模型并不是可以完全分到RL或普通慢思考两类中,往往是结合两种方法。例如deepseek在训练时仍会对思考内容进行SFT冷启动,也可以开启外部显式慢思考)

最后是MCoT的发展来时路:

MCoT发展路径