📅 2026-03-14 精选笔记¶

共 20 篇

AD-Copilot: A Vision-Language Assistant for Industrial Anomaly Detection via Visual In-context Comparison ¶

📄 多模态VLM / 工业异常检测

提出 AD-Copilot，通过 Comparison Encoder（跨注意力提取图像对差异tokens）+ Chat-AD 大规模工业多模态数据集（62万样本）+ 四阶段渐进训练策略，使 7B MLLM 在工业异常检测 benchmark MMAD 上达到 82.3% 准确率，超越所有现有模型（含 GPT-4o）并接近人类专家水平。

Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict ¶

🛡️ AI安全 / 联邦遗忘

提出 FOUL（Federated On-server UnLearning），训练时用因果解纠缠将模型分为域不变/域特异子网络（L2U），遗忘时仅在服务器端对域特异子网络做梯度冲突匹配，实现高效无需客户端数据的联邦客户级遗忘。

Garments2Look: 首个大规模 Outfit 级虚拟试穿数据集 ¶

🎨 图像生成 / 虚拟试穿

构建首个 outfit 级虚拟试穿数据集 Garments2Look（80K 穿搭对、40+ 大类 300+ 子类、平均 4.48 参考图），benchmark 揭示 VTON 专用方法在 outfit 级表现极差（FastFit Layering 仅 0.131），通用编辑模型 Nano Banana 全面更优（Garment 0.925、Layering 0.885），结构化文本标注使 FID 降低 7.4%。

Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics ¶

🧊 3D视觉 / 内在分解

提出 Geo-ID，一种推理时框架，通过几何引导的稀疏对应关系耦合多视角内在分解预测，用体素化共识初始化 + 共识引导扩散注入跨视角约束，无需修改模型参数即可将 Marigold Appearance 的 Metallicity MAD 从 0.070 降至 0.044（32 视角），同时保持单视角分解质量不下降。

IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring ¶

📄 参数高效微调 / 自适应 LoRA

提出 IGU-LoRA，将 Integrated Gradients 从输入归因扩展到参数空间计算层级重要性得分，结合 EMA+偏差追踪的 SNR 不确定性感知评分实现自适应 rank 分配。RoBERTa-large 上 GLUE 平均 89.42%（0.33M 参数），Qwen-2.5-0.5B 上以 8.8M 参数达 59.17% 超越 Full FT（494M 参数 58.98%）。

Learning through Creation: A Hash-Free Framework for On-the-Fly Category Discovery ¶

📦 模型压缩 / 开放世界识别

提出 LTC（Learning through Creation）框架，通过在训练时用 MKEE（核能量最小化+熵最大化）单步扰动生成伪未知类样本，配合双 max-margin 损失和自适应阈值在连续特征空间（无 hash）中实现类别发现-识别对齐，在 7 个 OCD benchmark 上提升 1.5%-13.1%。

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning ¶

🧠 LLM推理 / 强化学习优化

提出 MHPO 框架，通过 Log-Fidelity Modulator（log 空间 tanh 映射保证梯度可微且有界）+ Decoupled Hazard Penalty（Weibull 累积危险函数对正/负策略偏移施加非对称惩罚），解决 GRPO 训练中 importance ratio 导致的梯度不稳定问题，在数学推理和 VLM 任务上一致超越 GRPO/DAPO/SAPO。

📄 多模态VLM / 文字识别

提出 LER（Localization-Extraction-Recognition）框架，通过 CLIP 多模态信息辅助字符定位 + 显式字符特征解耦 + 部首感知 IDS 解码器，解决中文场景文字识别中的误差累积和注意力漂移问题，在 CTR benchmark 上以 81.47% 平均 LACC 达到 SOTA。

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset ¶

⚡ LLM效率 / 文本简化

构建 OasisSimp 多语言句子简化数据集（英语/僧伽罗语/泰语/泰米尔语/普什图语），由母语标注者经 3 轮训练后人工简化；评估 8 个开源 LLM 发现英语 SARI 可达 44.99 而低资源语言最低仅 24.07，揭示巨大的多语言性能鸿沟。

Revisiting the Perception-Distortion Trade-off with Spatial-Semantic Guided Super-Resolution ¶

🎨 图像生成 / 超分辨率

提出 SpaSemSR 空间-语义引导扩散超分框架，通过空间锚定文本引导和语义增强视觉引导双路互补，在 DIV2K-Val 上 PSNR 21.31 超越全部扩散方法（StableSR 20.74），CLIP-IQA 0.693 大幅超越 GAN 方法（Real-ESRGAN 0.549），并在真实数据 RealSR/DRealSR 上全面领先，消融证实空间引导提升 PSNR +1.84，语义引导提升 CLIP-IQA +4.09%。

PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment ¶

🎨 图像生成 / 视频生成

提出 PhysAlign，通过 Gram 矩阵时空关系对齐（从 V-JEPA2 提取运动学先验）+ 多层深度几何监督，仅用 3K 合成物理视频微调 Wan2.2-14B 的 LoRA adapter，即可显著提升生成视频的物理一致性（PIS 加速度指标从 0.52→0.63）而不损失视觉质量。

🎬 视频理解 / 多目标跟踪

提出 QTrack，将多目标跟踪从"跟踪所有物体"扩展为"根据自然语言查询推理并跟踪指定目标"，通过端到端 VLM + TAPO（时序感知策略优化）+ 结构化奖励实现语言条件化的时空推理跟踪，3B 模型即超越 GPT-5.2 等 10+ baseline，并构建 RMOT26 大规模 benchmark。

RSEdit: Text-Guided Image Editing for Remote Sensing ¶

🎨 图像生成 / 遥感编辑

提出 RSEdit，通过架构感知的适配策略（U-Net 用 channel concatenation，DiT 用 token concatenation）将预训练 T2I 扩散模型转化为遥感图像编辑器，在 6 万双时相卫星图像对上训练，在灾害模拟、城市变化等任务上大幅超越通用编辑器（F1dam 从 8.37 提升到 34.11）。

Sat-JEPA-Diff: Bridging Self-Supervised Learning and Generative Diffusion for Remote Sensing ¶

🎨 图像生成 / 遥感时序预测

提出 Sat-JEPA-Diff，用 IJEPA 在 latent 空间预测未来帧的语义表示，再通过 ~25M 参数的 cross-attention adapter 引导冻结的 SD 3.5 生成高保真卫星图像，在全球 100 个 ROI 的 Sentinel-2 数据集上 GSSIM 达 0.8984（比确定性方法高 11%+），FID 0.1475。

🎬 视频理解 / 多模态跟踪

提出 SDMoEA 参数高效微调框架，通过 Sparse MoE（建模模态特异信息）+ Dense-Shared MoE（串并混合结构建模模态共享信息）作为多模态 adapter，配合超图融合模块建模高阶跨模态关系，在 7 个多模态跟踪数据集上超越现有 PEFT 方法。