🧑 人体理解¶
💬 ACL2025 · 共 2 篇
- I See What You Mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
-
提出自监督预训练方法学习表征性共语手势(co-speech iconic gestures)的嵌入表示,将骨骼动作 grounded 到语言中,在面对面对话的指称消解任务上证明手势与语音的互补性——手势+语音准确率 31% 远超单独语音 24% 或手势 19%。
- TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
-
提出首个系统评估 GUI Agent 迁移性(跨版本/跨平台/跨应用)的 benchmark TransBench,涵盖 81 个中文 App、1459 张截图、22K+ 标注指令,实验表明在旧版本上微调可有效迁移到新版本和其他平台,而跨平台迁移中 Android 数据的泛化性最强。