📅 2026-03-25 精选笔记¶

共 19 篇

A³: Towards Advertising Aesthetic Assessment ¶

🧩 多模态/VLM / 图像美学评估 / 广告

提出 A³ 广告美学评估框架，包含理论驱动的三阶段评估范式 A³-Law（感知注意→形式兴趣→欲望影响）+ 30K 图像 120K 标注的 A³-Dataset + 经 SFT+GRPO 训练的 A³-Align 模型 + A³-Bench 基准，在广告美学评估上超越现有 MLLM。

Leave No Stone Unturned: Audio-Visual Deepfake Detection ¶

🛡️ AI安全 / 深伪检测

提出整体性音视频深伪检测方法：不仅检测单模态伪造痕迹和音视频不一致，还联合利用两种信号源——单模态固有特征和跨模态内在一致性——实现对未见生成器的鲁棒泛化，显著超越仅依赖单一信号源的现有方法。

PaddleOCR-VL: Boosting Document Parsing with Coarse-to-Fine Visual Processing ¶

📄 多模态VLM / 文档解析

提出 PaddleOCR-VL，一个粗到细的文档解析框架：粗阶段用轻量级 VRFM（基于 RT-DETR + pointer network）检测有效区域并预测阅读顺序，细阶段用 0.9B 的 VLM 精细识别裁剪区域，仅用 2561 个 vision token 就在 OmniDocBench v1.5 上取得 92.62 分 SOTA，超越参数量 80 倍以上的大模型。

DepthArb: Training-Free Depth-Arbitrated Generation for Occlusion-Robust Image Synthesis ¶

🎨 图像生成 / 扩散模型 / 空间可控生成

提出 DepthArb，一个无需训练的遮挡感知图像生成框架，通过注意力仲裁调制（AAM）抑制背景注意力泄漏 + 空间紧凑性控制（SCC）防止注意力发散，在扩散模型的交叉注意力层中显式解决深度排序冲突，在自建 OcclBench 和 OverLayBench 上显著超越现有方法。

EMoT: Enhanced Mycelium of Thought — Bio-Inspired Hierarchical Reasoning ¶

🧠 LLM推理 / Prompting

EMoT 受菌丝网络启发，提出四层认知处理架构替代线性/树状推理（CoT/ToT）：引入持久化记忆、策略性休眠（暂停低回报探索分支）和跨领域合成能力，让 LLM 在复杂多步推理中维持全局一致性和资源效率。

HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images ¶

🧊 3D视觉 / 手部重建 / 多视角几何

首次提出无需标定的前馈式多视角 3D 手部网格重建框架 HGGT：基于 VGGT backbone 提取多视角特征，通过可学习 hand/camera token 的交叉注意力联合推断手部 MANO 参数和相机位姿，结合单目+真实多视角+合成多视角的混合训练数据，在标准基准上超越 SOTA。

Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers ¶

🧩 多模态/VLM / 图像聚类 / 提示学习

提出新的语言辅助图像聚类（LAIC）框架：通过跨模态关系矩阵（ridge regression 重建图像-文本表示）挖掘更具判别力的自监督信号 + 通过提示学习在 CLIP 语义空间中学习连续类别语义中心来产生最终聚类分配，在 8 个基准上平均超越 SOTA 2.6%。

Marchuk: Efficient Global Weather Forecasting from Mid-Range to Sub-Seasonal Scales via Flow Matching ¶

🎨 图像生成 / 天气预报 / Flow Matching

提出 Marchuk，一个仅 276M 参数的隐空间 flow matching DiT 天气预报模型，在 ERA5 数据上可预测长达 30 天的全球天气，性能匹敌 1.6B 参数的 LaDCast 且推理速度快 6 倍（30 天 50 成员集合预报仅需 7.5 分钟/H100）。

Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search ¶

🦾 AI安全 / LLM Agent / Prompt Injection

提出 TIP（Tree-structured Injection for Payloads），针对 MCP 工具增强 Agent 的黑盒 prompt 注入攻击框架：将 payload 生成建模为树搜索问题，通过粗到细优化 + 路径感知反馈机制生成语义自然的注入 payload，在无防御下 ASR>95%、有防御下>50%，且查询量比现有自适应攻击低一个数量级。

EPOS-VLM: Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning ¶

📄 多模态VLM / 具身智能

提出 EPOS-VLM，一个统一的记忆增强 Vision-Language-Action 模型，将数据关联、物体描述和导航策略整合到单一自回归框架中，通过物体级 episodic memory 的文本序列化使 VLM 能跨视角推理，在 HM3D 上实现标准 captioning 指标 +11.86% 和跨视角描述一致性 +7.39% 的提升。

MMTIT-Bench: Multilingual Multi-Scenario Text-Image Machine Translation ¶

📄 多模态VLM / NLP

MMTIT-Bench 是首个人工验证的端到端文本-图像机器翻译 benchmark，覆盖多语言和多视觉场景，通过认知-感知-推理三层评估体系系统测试 VLLM 在图像内文字翻译中的能力，揭示现有模型在低资源语言和复杂视觉场景下的重大不足。

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning ¶

📄 视频生成 / 多模态

OmniWeaving 提出开源统一视频生成框架，将文生视频、图生视频、视频编辑、视频推理等多种任务整合到单一模型中，支持自由组合式输入（图文混合 prompt），弥补了开源社区与 Seedance-2.0 等商业系统在全能视频生成上的巨大差距。

PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks ¶

🧩 多模态/VLM / OCR / 数据中心AI

PP-OCRv5 是仅 5M 参数的轻量级两阶段 OCR 系统，通过系统化的数据中心方法论（从数据难度、准确性、多样性三个维度优化 22.6M 训练集），在标准 OCR 基准上达到与 billion 参数级 VLM 可比的识别精度，同时具备更精确的定位、更少的幻觉和极高的部署效率。

QuadFM: Foundational Text-Driven Quadruped Motion Dataset for Generation and Control ¶

🤖 机器人 / 四足运动生成 / 数据集

发布首个大规模四足机器人文本-动作数据集 QuadFM（11784 个动作片段+三层文本标注共 35352 条描述），覆盖运动、交互和情感表达行为，配套 Gen2Control RL 框架联合训练动作生成器和通用运动控制器，在 Unitree Go2 上实现 <500ms 实时文本驱动动作合成。

SafeFlow: Real-Time Text-Driven Humanoid Whole-Body Control via Physics-Guided Rectified Flow and Selective Safety Gating ¶

🤖 机器人 / 人形机器人控制 / 运动生成

提出 SafeFlow，一个面向真实人形机器人的实时文本驱动全身控制框架：高层用物理引导的 rectified flow 在 VAE 隐空间生成可执行运动轨迹 + reflow 蒸馏实现 NFE=1 实时推理 + 三阶段安全门控（语义 OOD 检测→生成稳定性过滤→运动学硬约束）选择性执行，在 Unitree G1 上实现 98.5% 成功率和严格安全保障。

ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors ¶

🎨 图像生成 / 超高分辨率 / 视频扩散先验

将极端宽高比（EAR）图像生成重构为视频扫描任务，提出 ScrollScape 框架：ScanPE 将空间坐标映射到时序帧实现"移动相机"效果 + ScrollSR 利用视频超分先验逐帧提升分辨率到 32K，在 3K 张训练图上微调 Wan2.1 即可生成全局连贯、无重复的超宽画幅图像。

SOMA: Strategic Orchestration and Memory-Augmented System for VLA Robustness ¶

🦾 具身智能 / LLM Agent

SOMA 为 Vision-Language-Action (VLA) 模型增加长期记忆、因果故障归因和动态干预能力，使机器人控制器在分布外（OOD）感知噪声和环境变化下保持鲁棒，通过 in-context 适应实现无需重新训练的策略修正。

🧩 多模态/VLM / 表格理解 / 神经符号推理

提出 TWT，一个面向表格-视觉多模态理解（TVMU）的程序辅助神经符号推理框架：通过代码交互式推理与沙盒环境交互实现信息提取和特征建模，采用两阶段训练（SFT + 自适应损失缩放 RL），在 8 个基准上平均超越 baseline 10%，性能匹敌或超越商业 SOTA LLM。

ViHOI: Human-Object Interaction Synthesis with Visual Priors ¶

🎨 图像生成 / 人体动作生成 / 人物-物体交互

提出 ViHOI，利用 VLM（Qwen2.5-VL）从 2D 参考图像中提取视觉先验和文本先验，通过 Q-Former 压缩为紧凑 token 后注入扩散模型，实现即插即用地提升多种 HOI 运动生成模型的质量和泛化性，在 FullBodyManipulation 和 BEHAVE 两个数据集上达到 SOTA。