Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition¶

会议: CVPR 2026
arXiv: 2603.03827
代码: GitHub
领域: 多模态VLM
关键词: 多模态意图识别, 层次语义表示, 自进化推理, 概念聚类, CoT

一句话总结¶

提出 HIER，通过层次语义表示（token→概念→关系三级）结合基于 MLLM 反馈的自进化推理机制，在三个多模态意图识别 benchmark 上一致超越 SOTA 方法和领先 MLLM（1-3% 增益）。

研究背景与动机¶

多模态意图识别的重要性：从多模态信号（文本+视频+音频）推断人类意图，是人机交互、对话系统、智能交通等的核心任务。
现有方法忽视层次语义：大多数方法关注细粒度多模态线索融合，但忽略了语义信息的层次性本质，限制了连贯可靠的推理。
静态推理过程的局限：现有方法依赖固定的推理流程，缺乏自进化精化能力，难以在复杂场景中动态适应。
MLLM 的推理潜力未充分利用：MLLM 虽具备强推理能力，但在缺少细粒度层次推理路径时仍难以处理复杂多模态语义。
人类认知的层次性启发：人类先建立情境感知，再识别关联显著语义线索，最后通过关系推理和迭代自我精化进行综合判断。
LGSRR 的初步尝试：利用 LLM 推理辅助意图理解有效果，但推理过程仍较浅层且依赖特定语义概念。

方法详解¶

整体框架¶

HIER 包含三步：(1) 多模态概念聚类——将 token 聚类为中级语义概念；(2) 多模态关系选择——用 IB 网络 + JS散度选择高信息量的概念间关系；(3) 进化多模态推理——通过结构化 CoT + 自进化机制进行层次推理。

关键设计¶

多模态概念聚类¶

使用 Qwen2-VL 编码器提取文本 token \(T\) 和视觉 token \(V\)，拼接为统一序列 \(Z\)。采用 Spherical K-Means++（余弦相似度）进行软聚类，并引入标签引导策略：用意图标签嵌入作为语义锚点，通过余弦相似度加权与当前质心做凸组合：

\[\tilde{c}_m^{(u)} = \alpha \cdot c_m^{(u)} + (1-\alpha) \cdot \sum_{i=1}^L \text{Weight}_{i,m}^{(u)} y_i\]

多模态关系选择¶

对所有概念对 \((c_i, c_j)\) 通过信息瓶颈网络编码关系 \(r_{ij} = \text{MLP}(\text{ReLU}([c_i; c_j]))\)。用 JS 散度量化关系提供的语义新颖性——高散度关系捕捉了超越单个概念的互补/涌现语义。保留 top-k 高散度关系。

进化多模态推理¶

结构化 CoT 三阶段：CoT-1（上下文理解，输入 token 级）→ CoT-2（概念分析，中级概念）→ CoT-3（关系推理，高级关系）。在后两阶段显式提示模型判断概念/关系的有用性。

自进化机制¶

将概念和关系特征通过共享生成头投影为词汇表 logits，基于反思 prompt 提取"Yes/No"的归一化置信度分数，用于动态调制特征：\(\text{Feature}' = \text{Score} \cdot \text{Feature}\)。

损失函数¶

\[\mathcal{L} = \mathcal{L}_{\text{task}} + \beta \mathcal{L}_{\text{relation}}\]

\(\mathcal{L}_{\text{task}}\) 为自回归语言模型损失，\(\mathcal{L}_{\text{relation}}\) 为概念和关系的意图分类交叉熵损失。

实验关键数据¶

主实验：三个 benchmark 对比¶

方法	MIntRec ACC	MIntRec F1	MIntRec2.0 ACC	MELD-DA ACC
MAG-BERT	72.40	68.29	60.38	61.08
MulT	72.31	68.97	60.66	59.99
TCL-MAP	73.17	68.92	58.24	61.63
SDIF-DA	71.64	68.19	-	-
HIER (Ours)	74.5+	71.0+	62.5+	63.0+

消融实验¶

组件	贡献
概念聚类	提供中级语义抽象
标签引导	对齐聚类与意图语义
关系选择	捕捉高阶交互模式
JS散度筛选	过滤冗余关系
自进化机制	动态精化特征
结构化CoT	层次化推理深度

关键发现¶

HIER 在所有三个 benchmark 上一致优于 SOTA，且超越直接使用 MLLM（如 Qwen2-VL）
自进化机制能有效过滤无用概念/关系，提升推理鲁棒性
方法可泛化到不同骨干（不仅限于 Qwen2-VL）
层次表示对复杂多类别意图识别帮助最大

亮点与洞察¶

令人信服的三级层次设计：token→概念→关系的渐进式抽象自然对应人类认知过程
标签引导的聚类策略将无监督聚类与任务目标优雅结合
JS散度用于关系选择的理论动机清晰——高散度意味着关系带来了新信息
自进化机制利用 MLLM 的生成头进行特征评估，无需额外标注
首个在多模态意图识别中建立多级渐进推理范式的工作

局限性¶

概念数量 \(k\) 和关系保留比例需要调优
聚类在每个样本上独立进行，缺乏跨样本的全局语义一致性
自进化的 Yes/No 二元评估较为粗糙，可能遗漏细微区别
计算开销较大——概念聚类 + 关系建模 + MLLM 推理

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐