跳转至

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

会议: CVPR 2026
arXiv: 2603.00431
代码: https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
领域: 多模态VLM
关键词: 层次化视觉识别, 生物分类学, 表示对齐, 生物基础模型, 强化学习微调

一句话总结

提出TARA框架,通过将LMM的中间表示与生物基础模型(BFM)的分类学感知特征对齐,为大型多模态模型注入分类层次知识,显著提升已知和新颖类别的层次化视觉识别性能。

研究背景与动机

  1. 领域现状:大型多模态模型在细粒度视觉识别(FGVR)上表现优秀,但层次化视觉识别(HVR)要求模型预测从粗到细的一致标签路径,这一能力尚不足。
  2. 现有痛点:LMM经常违反分类层次——例如在"界→门→纲→目→科→属→种"路径中产生不一致的预测。对于训练集中未出现的新颖类别,问题更为严重。
  3. 核心矛盾:LMM的视觉特征编码缺乏层次化的生物学先验,导致其无法在不同粒度层级间保持一致的识别结果。
  4. 本文要解决什么:如何将分类学层次知识注入LMM,使其在已知和新颖类别上都能产生层次一致的识别结果。
  5. 切入角度:生物基础模型(如BioCLIP2)通过层次化对比学习编码了丰富的生物学关系,可以作为分类学知识的来源。
  6. 核心idea一句话:将LMM的中间视觉表示和首个答案token表示分别与BFM的视觉特征和文本标签特征对齐,实现分类学知识的注入。

方法详解

整体框架

输入为图像和指定分类层级的VQA问题(四选一),TARA在不改变推理流程的前提下,通过训练时的表示对齐将BFM的分类学知识注入LMM。推理时不需要BFM和投影器。

关键设计

  1. 分类学视觉表示对齐 (Taxonomic Visual Representation Alignment)
  2. 做什么:将LMM第 \(\ell\) 层的视觉token表示与BFM的视觉特征对齐
  3. 核心思路:用可学习的投影器 \(P_V\) 将LMM的视觉表示映射到BFM特征空间,最小化余弦相似度损失 \(\mathcal{L}_V = -\frac{1}{N}\sum_{i=1}^{N}\text{sim}(P_V(\mathbf{e}^{\text{img}}_{\ell,i}), \mathbf{y}_i^{\text{img}})\)
  4. 设计动机:BFM通过层次化对比训练学到了物种间的生态关系,对齐后LMM的视觉表示能编码这种层次化结构

  5. 自由粒度标签表示对齐 (Free-grained Label Representation Alignment)

  6. 做什么:将LMM生成的第一个答案token的隐藏状态与BFM编码的目标粒度标签对齐
  7. 核心思路:用投影器 \(P_T\) 将答案首token映射到BFM文本空间,最小化 \(\mathcal{L}_C = \text{sim}(P_T(\mathbf{e}^{\text{answer}}_m[0]), \mathbf{y}^{\text{label}})\)
  8. 设计动机:同一图像在不同层级有不同标签(专家需要种名,普通用户只需"鸟"),此对齐让模型根据用户意图灵活映射到不同粒度

  9. 交替训练策略

  10. 做什么:TARA对齐损失与No-Thinking RFT交替训练
  11. 核心思路:No-Thinking RFT省略思维链,只用准确率奖励,直接产生简短答案。与TARA交替优化让知识注入更高效
  12. 设计动机:分类任务中显式推理过程并非必要,甚至可能有害;交替训练兼顾分类学知识注入和强化学习的探索能力

损失函数 / 训练策略

总损失为 \(\mathcal{L}_{\text{alignment}} = (\mathcal{L}_V + \mathcal{L}_C)/2\),与No-Thinking RFT交替训练。投影器 \(P_V\)\(P_T\) 为三层MLP+SiLU激活。推理时移除BFM和投影器,无额外开销。

实验关键数据

主实验

基础模型 RL TARA HCA (Plant) Acc_leaf (Plant) HCA (Animal) Acc_leaf (Animal)
Qwen3-VL-2B 6.46 30.16 7.18 27.86
Qwen3-VL-2B 9.23 31.96 8.57 29.32
Qwen3-VL-2B 12.78 32.66 10.26 30.77
Qwen2.5-VL-3B 10.89 39.73 16.70 40.26
Qwen2.5-VL-3B 17.91 44.35 21.99 46.25
Qwen2.5-VL-3B 19.53 45.66 24.02 49.16

TerraIncognita新颖类别

物种类型 RL TARA Order F1 Family F1
Known 17.16 10.83
Known 41.56 25.47
Novel 17.16 10.83
Novel 33.45 12.67

关键发现

  • TARA在所有基础模型上均带来一致且显著的提升,HCA指标提升最为明显(如Qwen3-VL-2B上+3.55%)
  • 在TerraIncognita的新颖类别上,TARA在Order级别F1提升超过10个点,证明其有效的泛化能力
  • RL+TARA组合效果优于单独使用任何一种,说明二者具有互补性
  • 推理时无需BFM,不增加推理开销

亮点与洞察

  • 推理时零开销:BFM和投影器仅在训练时使用,推理时完全移除。这意味着可以"免费"获得分类学知识增益,非常实用。
  • No-Thinking RFT的洞见:在分类任务中,显式推理反而可能有害,直接输出答案配合探索性RL效果更好。这个洞察可迁移到其他非推理密集型的VLM任务。
  • 自由粒度对齐:通过对齐首token表示而非强制所有层级,模型可以根据用户提问灵活调整识别粒度。

局限性 / 可改进方向

  • 实验仅在生物分类学领域验证,其他层次化分类场景(如商品类目、文档分类)未探索
  • 依赖BioCLIP2作为教师模型,对非生物领域需要找到相应的分领域基础模型
  • 仅使用1-shot设置,few-shot数量对性能的影响未充分探讨
  • 四选一VQA设置比开放集层次分类简单得多,混淆项设计的影响值得进一步分析

相关工作与启发

  • vs Fine-R1:Fine-R1用两阶段框架学习少样本FGVR推理过程;TARA则通过表示对齐直接注入分类学知识,更轻量
  • vs HCPT:HCPT在CLIP上做层次一致的prompt tuning;TARA在LMM上通过BFM对齐实现类似目标,且适用于新颖类别

评分

  • 新颖性: ⭐⭐⭐⭐ 将BFM知识注入LMM的思路新颖,推理零开销设计实用
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多数据集验证,消融充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数学描述规范
  • 价值: ⭐⭐⭐⭐ 开辟了LMM层次化识别的新方向