跳转至

📅 2026-03-11 精选笔记

20


A²-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

🎨 图像生成 / 图像编辑

提出 A²-Edit,统一的参考引导图像修复框架,通过 Mixture of Transformers (MoT) 动态路由不同类别的专家进行差异化建模,配合 Mask Annealing Training Strategy (MATS) 逐步放松掩码精度要求,支持任意物体类别和任意精度掩码的编辑。


CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

📄 多模态VLM / Agent评估

系统性地评估了 5 个 VLM 作为 Computer-Use Agent (CUA) 自动审计员的能力,跨三大操作系统基准测试,从准确率、置信度校准和模型间一致性三个维度揭示了当前 VLM 审计方法的局限。


DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

🤖 机器人 / 视频生成

提出 DiT4DiT,将视频扩散 Transformer 与动作扩散 Transformer 级联,通过双 flow-matching 目标联合训练,从视频去噪中间特征中提取时序条件来预测机器人动作,在 LIBERO (98.6%) 和 RoboCasa-GR1 (50.8%) 上达到 SOTA,样本效率提升 10 倍。


FairFAL: Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

🛡️ AI安全 / 联邦学习

系统性研究了联邦主动学习中全局/局部模型作为查询选择器的优劣,发现类别平衡采样(尤其是少数类采集)是性能关键,提出 FairFAL 框架通过自适应模型选择 + 原型引导伪标签 + 两阶段不确定性-多样性采样实现类别公平的联邦主动学习。


Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

⚡ 多模态VLM / LLM效率

提出 Fuel Gauge,首个运行时 CoT 长度预测框架——发现 LMM 内部存在"燃料信号"指示推理剩余长度,用 82K 参数的微型网络提取该信号,实现预测性 KV 缓存分配(内存分配频率降低 13.37 倍)和 CoT 长度调控(缓解过度/不足思考)。


Geometric Autoencoder for Diffusion Models

🎨 图像生成 / 扩散模型

提出 Geometric Autoencoder (GAE),通过构建低维语义监督目标、潜在空间归一化替代KL散度、动态噪声采样三大设计,系统性解决了潜在扩散模型中语义判别性、重建保真度和潜在空间紧凑性的统一难题,在 ImageNet 256×256 上以 32 维潜在空间达到 1.31 gFID (无CFG)。


HyPER-GAN: 基于混合Patch的图像翻译实现实时真实感增强

🎨 图像生成

提出 HyPER-GAN,一种轻量级 U-Net 风格生成器 + 混合 patch 训练策略的图像翻译方法,在 1080p 分辨率下以 33.7 FPS 实现实时合成图像真实感增强,同时保持语义一致性。


IMTBench: 面向图像内机器翻译的多场景跨模态协同评估基准

📄 多模态VLM

提出 IMTBench,一个包含 2500 个样本、覆盖 4 种场景和 9 种语言的图像内机器翻译(IIMT)评估基准,配套翻译质量、背景保持、视觉质量和跨模态对齐四维评估体系,系统性对比了级联系统与统一多模态模型的表现。


LIDA: Attribution as Retrieval — Model-Agnostic AI-Generated Image Attribution

🎨 图像生成 / AI安全

将 AI 生成图像归因问题从分类重新定义为实例检索问题,提出 LIDA 框架——通过低位平面指纹提取 + 无监督预训练 + 少样本归因适配,实现模型无关的零样本/少样本深伪检测和归因 SOTA。


LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

⚡ 模型压缩 / LLM效率

提出 LookaheadKV,用可学习 lookahead token + 专用 LoRA 模块预测 KV cache 的真实重要性分数,无需显式生成 draft 响应,在保持 draft-based 方法精度的同时降低驱逐开销高达 14.5 倍。


Pointy: A Lightweight Transformer for Point Cloud Foundation Models

🧊 3D视觉

提出 Pointy,一个轻量 Transformer 点云骨干网络(3.0M 参数),仅用 39K 点云训练就超越多个用 200K+ 数据训练的大型基础模型,接近用百万级多模态数据训练的 SOTA,证明精心设计的架构和训练协议比数据规模更重要。


Is this Idea Novel? An Automated Benchmark for Judgment of Research Ideas (RINoBench)

🗣️ LLM/NLP

提出 RINoBench,首个大规模研究 idea 新颖性判断基准——包含 1381 个经人类专家判断的研究 idea + 9 个自动评估指标,系统评测 SOTA LLM 能否准确判断 idea 新颖性,发现即便推理 LLM 生成的理由与人类相似,其新颖性评分仍显著偏离人类金标准。


Are Video Reasoning Models Ready to Go Outside? (ROVA)

🎬 多模态VLM / 视频理解

提出 ROVA 训练框架和 PVRBench 基准,通过结构化时空扰动生成 + 自反思难度感知课程学习 + 双分支对齐奖励优化,使视频推理模型在真实世界扰动(天气/遮挡/相机抖动/光照)下准确率相对提升 24%+,推理质量提升 9%+。


SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

🧊 3D视觉 / 手语生成

提出 SignSparK,基于稀疏关键帧训练的手语生成框架,通过 FAST 自动分割模型提取语言学关键帧 + Conditional Flow Matching 从关键帧锚点生成连续 3D 手语序列,实现 100 倍效率提升并覆盖 4 种手语的最大多语言 SLP 系统。


TennisExpert: Towards Expert-Level Analytical Sports Video Understanding

🎬 视频理解

构建了最大规模网球视频基准 TennisVL(202场比赛/40k+ rally片段),并提出 TennisExpert 框架——通过视频语义解析器 + 长短期记忆机制增强 Qwen3-VL-8B,实现超越 GPT-5、Gemini、Claude 的专家级网球战术解说生成。


UniCompress: Token Compression for Unified Vision-Language Understanding and Generation

📄 多模态模型效率 / Token 压缩

提出 UniCompress:在不改 LLM 主干的前提下,对统一视觉-语言模型加入“压缩器 + 全局元 token + 解压器”,把视觉 token 压缩到 1/4,同时保持理解任务小幅掉点,并把推理延迟最多降低 41.8%。


UniStitch: Unifying Semantic and Geometric Features for Image Stitching

📄 多模态VLM / 图像拼接

首次将传统几何特征(关键点)与学习语义特征统一到图像拼接框架中,通过 Neural Point Transformer 将稀疏离散关键点转换为密集 2D 几何图,再用 Adaptive Mixture of Experts 自适应融合两类特征,大幅超越单模态方法。


The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

🗣️ LLM/NLP / AI安全

提出动态评估框架,证明现有 LLM 遗忘方法是"海市蜃楼"——表面看似成功遗忘的信息通过多跳推理和实体别名查询即可恢复,原因在于遗忘仅破坏了主要计算通路而非全部通路。


V₀.₅: Generalist Value Model as a Prior for Sparse RL Rollouts

🧠 LLM推理 / 强化学习

提出 V₀.₅ 框架,将预训练的通用价值模型(V₀)作为统计先验与稀疏在线 rollout 的经验均值自适应融合,通过实时假设检验和动态预算分配构建鲁棒的优势基线,在 6 个数学推理基准上相比 GRPO/DAPO 提升 10%+。


WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

📄 多模态代码生成 / 网页重建评测

提出 WebVR:首个“视频到网页重建”基准,用 175 个合成网页和人类对齐的细粒度视觉 rubric 评估 19 个 MLLM,发现模型在动态交互(动画/悬停/滚动)维度普遍最弱,自动评测与人类偏好一致率达 96%。