🦾 LLM Agent¶
📷 CVPR2025 · 共 11 篇
- ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
-
提出 ATA(Adaptive Transformation Agent),解决文本引导的主体位置可变背景修复任务,通过 PosAgent Block 自适应预测位移、Reverse Displacement Transform 模块和 Position Switch Embedding,在保持修复质量的同时实现主体位置的灵活调整。
- ChatHuman: Chatting about 3D Humans with Tools
-
提出 ChatHuman,一个基于 LLM 的语言驱动系统,通过自动选择和集成专门的 3D 人体分析工具(3D 姿态估计、形状恢复、接触检测、人物交互分析、情感识别等),利用学术论文作为工具使用说明和 RAG(检索增强生成)创建 in-context 示例以管理新工具,在工具选择准确率和整体 3D 人体任务性能上超越现有 LLM 模型。
- Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
-
提出 Feature4X,一个通用框架,从任意单目视频通过动态优化策略将多种 2D 视觉基础模型(SAM2、InternVideo2 等)的功能蒸馏到统一的 4D 高斯特征场中,首次实现基于 Gaussian Splatting 的视频基础模型 4D 特征提升,支持新视角下的 segment anything、几何/外观编辑和自由形式 VQA。
- GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration
-
提出 GUI-Xplore 数据集(312 个应用、32K+ QA 对、五层级任务)和 Xplore-Agent 框架(Action-aware GUI 建模 + GUI Transition Graph 推理),通过模拟"先探索再推理"的人类策略,在陌生应用上比 SOTA GUI Agent 提升约 10% StepSR。
- RL-RC-DoT: A Block-level RL Agent for Task-Aware Video Compression
-
提出 RL-RC-DoT,一个基于强化学习的宏块级量化参数(QP)控制 agent,用于任务感知视频压缩。通过将 QP 选择建模为 RL 的顺序决策问题,agent 学习在给定码率约束下为任务相关区域分配更多码率,在车辆检测和 ROI 显著性编码两个任务上显著提升性能。关键优势在于推理时不需要运行下游任务模型,适合边缘设备部署。
- SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
-
提出 SceneAssistant,一个基于视觉反馈的闭环 agentic 框架,通过为 VLM 设计一套功能完备的 Action API(13个原子操作覆盖物体增删、6DoF空间操作、相机控制),让 VLM 以 ReAct 范式迭代生成开放词汇的 3D 场景,在室内(偏好率61.25%)和开放域(偏好率65.00%)场景中均大幅优于 Holodeck 和 SceneWeaver。
- Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback
-
提出 Sketchtopia 大规模数据集(20K+ 游戏会话、263K 草图、916 名玩家)和三组件 Agent 框架(ActionDecider + DRAWBOT + GUESSBOT),在 Pictionary 场景下研究异步、目标驱动的多模态协作通信,引入 AAO/FRS/MATS 三个新评估指标。
- SpiritSight Agent: Advanced GUI Agent with One Look
-
提出 SpiritSight,一个基于视觉的端到端 GUI agent,通过 573 万样本的多层级数据集 GUI-Lasagne 和 Universal Block Parsing (UBP) 方法解决动态高分辨率输入的定位歧义,SpiritSight-8B 在 Multimodal-Mind2Web 上非候选元素设置下 Step SR 达 52.7%,全面超越所有视觉/语言/混合方法。
- TANGO: Training-free Embodied AI Agents for Open-world Tasks
-
提出 TANGO,通过 LLM 的程序组合能力编排两个最小化的导航基础原语(PointGoal Navigation + 记忆驱动探索策略),无需任何任务特定训练,仅用 few-shot 示例即可在 Open-Set ObjectGoal Navigation、Multi-Modal Lifelong Navigation 和 Open Embodied QA 三个不同的具身 AI 任务上达到 SOTA,体现了"最小原语集 + LLM 组合"的通用性。
- V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
-
提出 V-Stylist,一个基于 MLLM 多 agent 协作和反思的视频风格化系统,通过 Video Parser(视频分镜)、Style Parser(风格树搜索)和 Style Artist(多轮自反思渲染)三个角色协作,在复杂转场视频和开放风格描述上实现 SOTA,整体指标超越 FRESCO 6.05%。
- Visual Agentic AI for Spatial Reasoning with a Dynamic API
-
提出 VADAR,一种 agentic 程序合成方法用于 3D 空间推理。多个 LLM agent 协作生成 Pythonic API 并在求解过程中动态扩展新函数来解决常见子问题,克服了 VisProg/ViperGPT 等先前方法依赖静态人工定义 API 的局限。同时引入涉及多步空间定位和推理的新 benchmark,在 3D 理解任务上超越现有零样本方法。