DisenQ: Disentangling Q-Former for Activity-Biometrics¶

会议: ICCV 2025
arXiv: 2507.07262
代码: 无（有 Project Page）
领域: multimodal_vlm
关键词: 活动生物特征识别, Q-Former, 特征解纠缠, 多模态学习, 视频行人重识别

一句话总结¶

提出 DisenQ（Disentangling Q-Former），通过结构化语言引导将视频特征解纠缠为生物特征、动作和非生物特征三个独立空间，无需额外视觉模态即可实现活动感知的行人识别 SOTA。

研究背景与动机¶

活动生物特征识别（Activity-Biometrics） 是在人执行日常活动（不仅是行走/站立）时识别身份的新任务，比传统行人重识别更具挑战性：

身份线索与运动/外观纠缠：行走、跳跃等不同活动引入了大量运动变化，与身份特征混合使识别困难

现有方法依赖额外视觉模态：ABNet 等方法需要轮廓图（silhouette），但提取精度受限于环境

CLIP-based 方法的局限：只做全局 image-text 对齐，缺乏 identity-specific 特征分离，无法维护时序一致性

核心动机：能否用语言监督替代额外的视觉模态，通过结构化文本描述来引导特征解纠缠，使生物特征不受外观和动作变化影响？

方法详解¶

整体框架¶

输入 RGB 视频 → ViT 视觉编码器提取帧特征 → 时序注意力池化得到视频特征 \(F\) → DisenQ 用三组可学习 query 分别提取生物特征/动作/非生物特征 → 身份分类头进行识别。训练时使用冻结 VLM 生成结构化文本描述作为引导；推理时不需要文本。

关键设计¶

DisenQ（Disentangling Querying Transformer）：
- 基于 BLIP-2 的 Q-Former 架构改造，引入三组独立的可学习 query：\(z_b\)（生物特征）、\(z_m\)（动作）、\(z_{\hat{b}}\)（非生物特征）
- 三组 query 共享 self-attention 和 cross-attention 层，但彼此不交互，各自保持独立
- 每组 query 与对应的视觉特征和文本特征做 cross-attention： \(Q_b = Wz_b, \quad K_b = W[F, T_b], \quad V_b = W[F, T_b]\)
- 动作 query \(z_m\) 和非生物特征 query \(z_{\hat{b}}\) 同理，分别使用 \(T_m\) 和 \(T_{\hat{b}}\)
- 设计动机：共享层减少参数（消融显示三个独立 Q-Former 参数量×3 但只提升 0.23% R@1），独立 query 保证特征分离
结构化文本生成与编码：
- 使用冻结的 LLaVA 1.5 7B 从关键帧生成三类描述：
  - 生物特征描述 \(P_b\)：体型、姿态、显著身体特征；每个身份只生成一次，后续用 running average 更新
  - 动作描述 \(P_m\)：动作标签和运动方式
  - 非生物特征描述 \(P_{\hat{b}}\)：服装、配饰等
- 文本经冻结 BERT 编码为 \(T_b, T_m, T_{\hat{b}}\)
- 推理时不需要 VLM 和文本——DisenQ 已从训练中学会了解纠缠
自适应身份相似度计算：
- query 嵌入经 mean pooling 得到 \(F_b\), \(F_m\), \(F_{\hat{b}}\)，仅 \(F_b\) 和 \(F_m\) 用于最终识别
- 用轻量 MLP 动态计算生物特征和动作特征的权重 \(\alpha_1, \alpha_2\)： \(Sim(A,B) = \alpha_1 Sim_b(A,B) + \alpha_2 Sim_m(A,B)\)
- 动态权重让模型在运动信息有意义时利用动作线索，否则依赖生物特征

损失函数 / 训练策略¶

\[\mathcal{L} = \lambda_1 \mathcal{L}_{ID} + \lambda_2 \mathcal{L}_{Tri} + \lambda_3 \mathcal{L}_{Orth} + \lambda_4 \mathcal{L}_{Act}\]

\(\mathcal{L}_{ID}\)：交叉熵分类损失（用于 \(F_b\)），\(\lambda_1=0.01\)
\(\mathcal{L}_{Tri}\)：三元组损失（margin \(m=0.3\)），确保同一身份特征聚合
\(\mathcal{L}_{Orth} = \|F_b^T F_{\hat{b}}\|\)：正交约束，强制生物特征与非生物特征独立
\(\mathcal{L}_{Act}\)：交叉熵用于 \(F_m\) 的动作分类，确保动作特征保留运动信息
训练：EVA-CLIP ViT-G/14 视觉编码器，DisenQ 用 InstructBLIP 权重初始化，AdamW, lr=1e-4, 60 epochs, batch=32（8人×4 clip）

实验关键数据¶

主实验（活动生物特征识别基准）¶

方法	NTU Same R@1	NTU Cross R@1	PKU Same R@1	PKU Cross R@1	Charades Same R@1	Charades Cross R@1
ABNet (CVPR24)	78.8	77.0	86.8	81.4	45.8	44.8
CLIP-ReID (AAAI23)	77.1	75.2	82.3	81.2	44.2	42.1
Instruct-ReID (CVPR24)	78.2	75.9	84.3	81.7	44.8	40.1
DisenQ (Ours)	82.2	80.9	89.2	84.1	49.9	48.4

三个数据集上平均 R@1 提升 3.7%、2.4%、3.9%。在传统 MEVID 基准上也达到 60.7% R@1（SOTA）。

消融实验¶

配置	NTU R@1	NTU mAP	Charades R@1	Charades mAP
Vision encoder only	73.2	36.2	40.1	29.2
+ Text encoder	77.7	40.6	46.5	31.8
+ DisenQ（完整）	82.2	43.8	49.9	34.8

特征解纠缠类型消融：

解纠缠方式	NTU R@1	Charades R@1
无解纠缠	74.2	42.3
\(F_b\) + \(F_{\hat{b}}\)（生物+非生物）	76.6	44.7
\(F_b\) + \(F_m\)（生物+动作）	79.2	48.2
\(F_b\) + \(F_{\hat{b}}\) + \(F_m\)（全部）	82.2	49.9

单特征性能：非生物特征单独使用只有 3.8% R@1，说明解纠缠成功剥离了身份信息。

关键发现¶

DisenQ 贡献最大：从 text encoder (+4.5%) 到 DisenQ (+4.5%) 的提升最为显著
三路解纠缠效果互补：生物+动作的组合（79.2%）优于生物+非生物（76.6%），说明动作信息对身份识别更关键
非生物特征确实被"清洗"：单独使用时 R@1 仅 3.8%，几乎不含身份信息
VLM 选择不敏感：LLaVA、InstructBLIP、GPT-4V 差异 < 0.2%，说明方法对文本质量鲁棒
自适应权重优于固定权重：对低运动活动（手势等），固定权重导致动作特征干扰，自适应权重能抑制
用随机服装描述替代真实描述导致 R@1 下降 9.2%，验证了精确文本引导的必要性

亮点与洞察¶

首次将 Q-Former 用于特征解纠缠：巧妙改造了 BLIP-2 的 Q-Former，从单一 query 集扩展为多组独立 query，每组对应不同信息维度
推理时不需要 VLM/文本：语言引导仅在训练时使用，推理时 query 已经学会了解纠缠模式，零额外推理开销
跨场景泛化强：在活动生物特征和传统行人重识别基准上都取得 SOTA/竞争力表现
生物特征描述的 running average 更新：优雅地处理了同一身份在不同视频中描述不一致的问题

局限与展望¶

依赖 VLM 生成的文本质量，虽然消融显示对 VLM 选择不敏感，但在更极端场景（遮挡严重、低分辨率）下质量可能下降
ViT-G/14 作为视觉编码器参数量大（1.8B），在资源受限场景不实用
未探索无监督或半监督设置（需要 ground truth 身份和动作标签）
动作标签作为 ground truth 提供，在真实部署中需要先做动作识别

评分¶

新颖性: ⭐⭐⭐⭐ Q-Former 解纠缠是创新点，语言引导替代额外视觉模态思路好
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、详细消融、特征空间可视化、VLM/编码器选择分析
写作质量: ⭐⭐⭐⭐ 动机清晰、方法描述完整，图表质量高
价值: ⭐⭐⭐⭐ 为活动感知行人识别提供了有效方案，有监控/智能环境应用前景