georgehu学习生活 - 论文阅读-Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

arXiv原文链接Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

基本知识

CoT定义

以下叙述中，P=prompt、S=instruction、Q=query、A=anwser、R=rationale

定义了从CoT到MCoT的过程，首先是普通的ICL（In-context Learning）及其输出特定回答序列的概率：

$$ \mathcal{P}_{\text{ICL}} = \{ S, (x_1, y_1), \ldots, (x_n, y_n) \} $$

$$ p(\mathcal{A} \mid \mathcal{P}_{\text{ICL}}, Q) = \prod_{i=1}^{|\mathcal{A}|} \mathcal{F}(a_i \mid \mathcal{P}_{\text{ICL}}, Q, a_{<i}) $$

再是CoT的

$$ \mathcal{P}_{\text{CoT}} = \{ S, (x_1, e_1, y_1), \ldots, (x_n, e_n, y_n) \} $$

$$ \begin{aligned} p(\mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) &= \prod_{i=1}^{|\mathcal{R}|} \mathcal{F}(r_i \mid \mathcal{P}_{\text{CoT}}, Q, r_{<i})\\ p(\mathcal{A} \mid \mathcal{P}_{\text{CoT}}, Q, \mathcal{R}) &= \prod_{i=1}^{|\mathcal{A}|} \mathcal{F}(a_i \mid \mathcal{P}_{\text{CoT}}, Q, a_{<i})\\ p(\mathcal{A}, \mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) &= p(\mathcal{A} \mid \mathcal{P}_{\text{CoT}}, Q, \mathcal{R}) \cdot p(\mathcal{R} \mid \mathcal{P}_{\text{CoT}}, Q) \end{aligned} $$

MCoT相较于传统CoT，在$\mathcal{R}$中包含了除了语言信息外的其他模态信息。

思考范式

CoT思考范式演变

链-树-图的演变，总体呈现从线性依赖到分支探索、信息凝炼聚合、深层联系挖掘的趋势。

MLLM

单个模型的能力从image-text理解到video-text理解；从image/audio/video单种模态生成到多模态生成；从理解/生成到any-to-any。再到原生长推理模型。

MLLM总体结构

各种模态上CoT的演变历史

应用任务

Image

对图片模态的CoT设计最初是在生成最终的结果前进行一次中间推理生成，跟随这种范式，后续又有一些额外的设计：

多路并行链，最后进行投票，以增强推理的质量
用一个router动态选择思考方式
多图输入时，对图片间差异进行额外关注
推理节点之间构建hyperedge

接着，结构化推理机制开始发展，文本和视觉模态之间的关联交互在生成推理过程中被着重设计：

要求模型对兴趣区进行分析
在推理中加入图片的基本信息、外部知识背景
对静态图片的特征进行重新映射生成
CoT中加入图片构成MCoT

Video

在视频意图QA中，往往采用精心设计的问题或多步任务让模型对视频内容进行解构，有zero-shot的，也有few-shot的。下面是一些常见的分解任务：

任务/目标识别
物体跟踪
动作分析
回答验证
带排名的回答
caption生成
bbox生成

3D数据

主要还是利用MCoT来将复杂任务分解，使得大模型能够完成3D数据相关的任务（物体流线形设计、3D形状生成）。也有尝试直接对齐子任务以实现主任务的方法（形状识别、功能推断、原因推理）。

MCoT具体方法汇总

思考内容构建方式

从思考内容构建的角度，可分为：

Prompt-based：通过精心设计的提示词让模型在推理过程中生成思考内容，一些提示词设计中会包含任务的示例
Plan-based：让模型根据思考内容自行动态探索，并通过一定方式“搜索”最佳回答
Learning-based：训练一个专门用于生成思考内容的模型，原生支持推理的大模型也在发展

思考过程结构方式

从思考过程结构的角度，可分为：

Asynchronous Modality Modeling：受神经科学启发，遵循“description then decision”策略，将感知和深层推理分步进行
Defined Procedure Staging：通过预设的固定阶段pipeline分解特定任务，具有良好的可解释性
Autonomous Procedure Staging：自动生成推理子任务，更贴近于具身智能

信息获取方式

从增强信息获取的角度，可分为：

Using Expert Tools：引入领域特色的工具
Using World Knowledge Retrieval：例如推理时外挂知识库RAG
Leveraging In-context Knowledge Retrieval

理解粒度方式

从理解粒度的角度，可分为：

Coarse Understanding：普通的VQA、AQA任务，不注重细节，只问总体
Semantic Grounding：对画面中的东西进行理解
Fine-grained Understanding：对画面局部内容进一步理解，例如获取目标物品的bbox

从测试时scaling方式

从测试时scaling的角度。可分为：

Slow-Thinking-based：内部/外部慢思考机制，事实上特点在于需要训练思考内容本身
Reinforcement Learning-based：强化学习机制，特点在于思考内容本身通过端到端的奖励进行训练

（需要说明的是，各种模型并不是可以完全分到RL或普通慢思考两类中，往往是结合两种方法。例如deepseek在训练时仍会对思考内容进行SFT冷启动，也可以开启外部显式慢思考）

最后是MCoT的发展来时路：

MCoT发展路径