Noise-Aware Few-Shot Learning through Bi-directional Multi-View Prompt Alignment¶

会议: CVPR 2026
arXiv: 2603.11617
代码: 无 (论文未提供代码链接)
领域: 视觉-语言模型 / 小样本学习 / 噪声标签学习
关键词: 噪声标签, prompt learning, 最优传输, CLIP, 小样本学习

一句话总结¶

提出NA-MVP框架，通过双向（clean+noise-aware）多视图prompt设计配合非平衡最优传输（UOT）实现细粒度patch-to-prompt对齐，并用经典OT对识别出的噪声样本做选择性标签修正，在噪声小样本学习场景下持续超越SOTA。

背景与动机¶

CLIP等视觉-语言模型通过prompt learning可高效适配下游任务，但当训练标签存在噪声时，少量错误标签会不成比例地影响梯度更新
现有噪声prompt学习方法存在三大局限：
prompt表达力不足：多数方法仅用1-2个prompt（如正/负对），单视角对齐无法捕捉细粒度语义线索
显式负标签僵硬：为每张图像分配一个硬负标签，固定的反类信号在噪声环境下常不准确或无信息量
去噪粗糙：依赖固定置信度阈值或无选择性的伪标签，导致错误传播
核心洞察：鲁棒的噪声小样本学习需要从全局匹配转向区域感知的细粒度对齐，自适应区分clean和noisy语义

核心问题¶

如何在VLM prompt learning中，在标签噪声严重的少样本设置下，(1) 自适应地区分干净和噪声语义信号；(2) 实现细粒度的图像区域-prompt对齐以抑制噪声区域；(3) 选择性地修正错误标签而不过度纠正。

方法详解¶

整体框架¶

NA-MVP包含两个核心模块协同工作： 1. 噪声感知对齐 (蓝色路径)：为每个类构建多个clean和noise-aware prompt，通过UOT与局部图像patch做细粒度对齐，生成clean/noisy概率 2. 选择性标签修正 (绿色路径)：基于双向对齐信号自适应识别错标样本，用经典OT修正其标签两个模块迭代地更新训练集并优化prompt，产出去噪数据集用于鲁棒预测。

关键设计¶

双向多视图Prompt构建:
每个类 \(k\) 构建两组可学习prompt：clean-oriented \(\{Prompt_{m,k}^c\}_{m=1}^N\) 和 noise-aware \(\{Prompt_{m,k}^n\}_{m=1}^N\)
每个prompt由 \(M\) 个可学习context token + 类别特定token组成
Clean prompt捕捉类别相关语义，noise-aware prompt作为自适应过滤器抑制误导信号
非目标类作为隐式负样本，避免显式负标签的僵硬问题
基于UOT的细粒度噪声感知对齐:
将局部图像特征 \(F_i \in \mathbb{R}^{L \times d}\) 和prompt特征 \(G_k \in \mathbb{R}^{N \times d}\) 视为离散分布
用余弦相似度计算代价矩阵 \(C_k = 1 - F_i G_k^\top\)
UOT放松严格质量守恒约束（\(T\mathbf{1}_N \leq \mu\) 而非等号），允许部分匹配
通过Dykstra算法的快速实现（Sinkhorn + 熵正则化）求解
核心优势：不强制所有特征都对齐，允许噪声/不相关patch被"丢弃"
选择性标签修正:
噪声识别：计算样本与clean/noise-aware prompt的UOT距离，得到相似度 \(s_{i,k}^c\) 和 \(s_{i,k}^n\)，通过自适应阈值 \(\phi_{i,k} = \frac{\exp(s_{i,k}^n/\tau)}{\exp(s_{i,k}^c/\tau) + \exp(s_{i,k}^n/\tau)}\) 判定样本是否noisy
标签修正：对识别为noisy的样本，用经典OT（严格质量守恒）计算全局图像特征与类prompt特征之间的最优传输计划 \(T^*\)，选 \(\arg\max_j T^*_{ij}\) 作为伪标签
仅修正 \(p_{ik}^c < \phi_{i,k}\) 的样本，保留可信样本不变，避免过度修正

损失函数 / 训练策略¶

早期阶段 (前 \(T_{sup}\) 个epoch)：\(\mathcal{L}_{sup} = \mathcal{L}_{gce} + \lambda_i \cdot \mathcal{L}_{itbp}\)
GCE (Generalized Cross-Entropy)：对噪声标签鲁棒的损失函数
ITBP Loss：辅助双向对比损失，鼓励图像特征与clean prompt对齐、远离noise-aware prompt
后期阶段：激活标签修正，在去噪数据集上继续用GCE训练
推理时：\(p(y=k|x_i) = (1 - p_{ik}^n) \cdot p_{ik}^c\)，同时利用clean和noise-aware概率
SGD优化 (lr=0.002, momentum=0.9, weight_decay=5e-4)，50 epochs，16 shared context tokens，ResNet-50 image encoder

实验关键数据¶

合成噪声 (5数据集均值, 16-shot)¶

数据集	指标	NA-MVP	NLPrompt	提升
OxfordPets (75%Sym)	Acc	86.23	70.77	+15.46
OxfordPets (50%Sym)	Acc	88.13	83.17	+4.96
DTD (75%Sym)	Acc	48.63	39.80	+8.83
Caltech101 (75%Sym)	Acc	89.37	86.70	+2.67

真实世界噪声 (Food101N)¶

方法	4-shot	8-shot	16-shot	32-shot
NLPrompt	70.57	73.93	76.46	76.87
NA-MVP	76.10	76.27	76.90	77.03

在极少样本(4-shot)下优势尤为明显（+5.53），因为少样本时噪声标签影响更大。

消融实验要点¶

双向prompt：单prompt(48.08%) → +显式负标签(48.82%) → +隐式双向(49.63%) → +多视图(51.83%)，逐步提升
UOT vs OT vs KL：UOT(54.18%) > OT(53.37%) > KL(52.60%)，UOT的放松约束在噪声环境下优势明显
选择性修正：全局OT修正在低噪声时会误改正确标签（25%噪声: 59.60%），选择性修正更稳定（63.13%）
prompt数量N：N=4达到最佳平衡（N=1太少，N=8冗余）
vs DEFT：在所有噪声水平上持续优于DEFT（75%噪声: 86.23 vs 75.87）

亮点¶

概念上的新视角：将噪声鲁棒性问题重新定义为"区域感知的clean-noisy语义分解"问题，而非简单的全局匹配
UOT的巧妙使用：放松质量约束天然适配噪声场景——噪声patch无需强制对齐，可被安全"丢弃"
两种OT的互补设计：UOT用于局部细粒度对齐（识别噪声），经典OT用于全局标签修正（严格保质量保证分配合理性）
在高噪声率(75%)下的提升尤为显著，说明框架的噪声鲁棒性确实优于prior work
推理公式 \((1-p^n) \cdot p^c\) 简洁优雅

局限性 / 可改进方向¶

仅在分类任务上验证，未扩展到检测、分割等更复杂视觉任务
依赖CLIP的ResNet-50 backbone，未验证在更强backbone（ViT-L/14）上的表现
UOT的Sinkhorn迭代会引入额外计算开销，论文未详细讨论计算成本
假设噪声标签是对称/非对称的标准模式，实际噪声分布可能更复杂（如instance-dependent noise）
4个多视图prompt的最优数量可能依赖数据集特性

与相关工作的对比¶

vs CoOp: 基础prompt learning，完全不考虑噪声，性能随噪声率急剧下降
vs NLPrompt: 使用OT-Filter做噪声识别 + 全局OT重标注，属于粗粒度全局方法；NA-MVP通过patch级UOT + 自适应阈值实现更精细的噪声处理
vs DEFT: 用固定阈值(0.5)做clean判定，NA-MVP的自适应阈值 \(\phi_{i,k}\) 更灵活
vs PLOT: PLOT用OT做多prompt对齐但针对clean数据，NA-MVP扩展为噪声感知的双向设计
vs CLIPN: CLIPN用正/负prompt对做OOD检测，NA-MVP将其思想迁移到噪声标签学习并加入多视图

启发与关联¶

UOT在噪声环境中的"放松匹配"思想可迁移到其他噪声场景（如目标检测中的噪声标注、医学图像分割中的不精确标注）
"隐式负样本"优于"显式负标签"的结论对NLP中的对比学习也有启发
双向prompt的设计思路可扩展为"多维度prompt"（如clean/noisy/ambiguous三向）
已有相关idea引用此论文：Verifier Pseudo Label for Open World Detection

评分¶

新颖性: ⭐⭐⭐⭐ 将UOT引入prompt-based噪声标签学习是新颖的，双向多视图设计有独到之处
实验充分度: ⭐⭐⭐⭐ 5个合成噪声数据集 + 1个真实噪声数据集，消融实验非常全面（组件、对齐方式、prompt数量、阈值策略）
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，Figure 1的三大局限总结到位，方法描述系统
价值: ⭐⭐⭐⭐ 在噪声小样本学习这一实用场景下提供了有效方案，高噪声下的大幅提升有实际意义

消融实验要点¶

UOT 对齐比 Sinkhorn 和余弦相似度更鲁棒, 高噪声下优势尤为显著
双向 prompt 对齐 (视觉→文本 + 文本→视觉) 优于单向
噪声自适应阈值策略比固定阈值更有效

亮点与洞察¶

将最优传输理论引入 prompt-based 噪声标签学习是新颖的跨领域迁移
双向多视图对齐同时处理 prompt 噪声和标签噪声
在 60% 对称噪声下仍保持较高准确率, 实用性强

局限性 / 可改进方向¶

UOT 计算开销随 prompt 数量和样本量增加
仅在分类任务验证, 未扩展到检测/分割等下游任务
噪声类型假设较为理想化 (对称/非对称), 真实噪声模式可能更复杂

与我的研究方向的关联¶

可能关联: 20260316_adaptive_model_routing.md
可能关联: 20260316_cross_species_framework.md
可能关联: 20260316_concept_bottleneck_world_model.md

评分¶

新颖性: ⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐

Noise-Aware Few-Shot Learning through Bi-directional Multi-View Prompt Alignment¶

一句话总结¶

背景与动机¶

核心问题¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

合成噪声 (5数据集均值, 16-shot)¶

真实世界噪声 (Food101N)¶

消融实验要点¶

亮点¶

局限性 / 可改进方向¶

与相关工作的对比¶

启发与关联¶

评分¶

消融实验要点¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

与我的研究方向的关联¶

评分¶