跳转至

Toward Gaze Target Detection in Young Autistic Children

会议: AAAI 2026
arXiv: 2511.11244
代码: ShijianDeng/AGT
领域: 注视目标检测 / AI for Autism
关键词: 注视目标检测, 自闭症谱系障碍, 类别不平衡, 多模态大语言模型, 粗到细框架

一句话总结

针对自闭症儿童注视目标检测中面部注视(6.6%)严重不足的类别不平衡问题,提出 Socially Aware Coarse-to-Fine (SACF) 框架,用微调的 Qwen2.5-VL 作为社交上下文感知门控,将输入路由到社交感知/社交无关两个专家模型,在首创的 AGT 数据集上显著提升了面部注视检测性能(Face L2 在 Sharingan 上降低 13.9%, F1 从 0.753 提升至 0.761)。

背景与动机

  • 自闭症谱系障碍 (ASD) 影响约 1/31 的八岁儿童,核心特征之一是社交注意力差异,尤其是联合注意力 (joint attention) 的发起和响应困难
  • 联合注意力评估是早期自闭症诊断和干预的基石,但依赖高度训练的专业人员,劳动密集、难以扩展
  • 现有注视目标检测研究几乎完全聚焦于神经典型成人/儿童,这些模型在自闭症儿童上性能大幅下降
  • 核心原因:自闭症儿童看脸的频率远低于神经典型同龄人,导致数据中存在严重的类别不平衡(仅 6.6% 注视面部),标准模型倾向于预测非社交目标,错过关键的社交互动时刻
  • 缺乏自闭症专用的注视目标检测数据集

核心问题

在自闭症儿童注视数据中面部注视极度稀缺(6.6%)的情况下,如何准确检测注视目标,特别是不丢失临床上至关重要的面部注视事件?这是一个典型的领域适应+类别不平衡联合挑战。

方法详解

整体框架

输入图像 I + 儿童头部框 B_head → Social Context Awareness (SCA) 模块(微调 Qwen2.5-VL-7B)估计社交上下文分数 s(儿童看脸的概率)→ 阈值门控路由 → 若 s 高(社交场景),输入经背景模糊增强后送入 Socially Aware Gaze Expert;若 s 低(非社交场景),送入 Socially Agnostic Gaze Expert → 专家输出 gaze heatmap → argmax 获取预测注视点 → 检查预测点是否落入成人面部框内,得到最终语义分类(Face/Not Face)。

关键设计

  1. Autism Gaze Target (AGT) 数据集:
  2. 首个自闭症注视目标检测数据集,来自 59 个经伦理审批的录像,在 CSBS-DP 评估过程中录制
  3. 16,582 标注帧,训练集 9,874 帧、验证集 3,344 帧、测试集 3,364 帧
  4. 标注内容:儿童头部框、成人面部框、注视目标点及类别(目标物体/面部/人身非面部/无对象)
  5. 类别分布:Face 仅 6.6% (1,088 帧), Not Face 93.4% (15,494 帧)
  6. 双标注者一致性:Cohen's Kappa = 0.757(实质性一致)

  7. Social Context Awareness (SCA) 模块:

  8. 使用 Qwen2.5-VL-7B-Instruct 微调为二分类器,估计儿童看脸的概率
  9. 通过阈值生成粗分类:Face 或 Not Face
  10. SCA 性能:Face 召回率 65.53%, Not-face 召回率 98.10%, Face F1 = 0.673
  11. 利用 MLLM 的大规模预训练视觉知识来理解场景社交语境

  12. Two-Pathway Gated Experts:

  13. Socially Aware Gaze Expert (Ex_aware): 在增强数据集上训练,当目标确定时对不相关区域施加强高斯模糊,引导模型聚焦于合理目标(如面部),避免极端失败;专门优化面部注视场景
  14. Socially Agnostic Gaze Expert (Ex_agnostic): 在原始未修改数据上训练,针对高频非社交和不确定场景做最大性能优化,不受 Face 类特殊需求约束
  15. 两个专家均基于 GazeLLE 架构(冻结 DINOv2 编码器 + 轻量 Transformer 解码器)或 Sharingan 架构

  16. 门控与推理:

  17. SCA 输出路由决定使用哪个专家
  18. 最终语义分类基于空间检查:预测注视点是否落在成人面部框内
  19. 当 SCA 判断正确时(约 96%),框架能充分利用两个专家的各自优势

损失函数 / 训练策略

  • 注视热图损失:像素级 Binary Cross-Entropy (BCE),比较预测热图与高斯模糊 GT 热图
  • SCA 模块:在 AGT 训练集上微调 Qwen2.5-VL-7B,二分类(看脸/不看脸)
  • Socially Aware Expert:在背景模糊增强的数据上训练 BCE loss
  • Socially Agnostic Expert:在原始数据上训练 BCE loss
  • 硬件:NVIDIA A6000 GPU

实验关键数据

方法 L2 L2_obj L2_face L2_pnf Precision Recall F1
Sharingan (原始) 0.0615 0.0615 0.0647 0.0561 0.4377 0.8010 0.5660
Sharingan-AGT 0.0486 0.0451 0.0949 0.0595 0.7744 0.7330 0.7531
Sharingan-SACF (Ours) 0.0480 0.0453 0.0817 0.0616 0.7647 0.7573 0.7610
GazeLLE (原始) 0.0670 0.0630 0.1092 0.1041 0.3868 0.6553 0.4865
GazeLLE-AGT 0.0460 0.0405 0.1130 0.0804 0.6984 0.6408 0.6684
GazeLLE-SACF (Ours) 0.0453 0.0405 0.1019 0.0804 0.7041 0.6699 0.6866
  • Upper Bound(oracle gate): Sharingan-SACF 可达 F1=0.9786, L2_face=0.0378;GazeLLE-SACF 可达 F1=0.9903, L2_face=0.0307

消融实验要点

  • 神经典型模型在自闭症数据上失效: 原始 Sharingan/GazeLLE 训练于神经典型 Childplay 数据集,在 AGT 上 F1 仅 0.566/0.487,过度估计自闭症儿童的社交注视
  • Face L2 改善显著: SACF 使 Sharingan 的面部注视误差从 0.0949 降至 0.0817 (降低13.9%), GazeLLE 从 0.1130 降至 0.1019 (降低9.8%)
  • 专家分工明确: 当 GT=Face 时,Socially Aware Expert 的 L2 = 0.0303,是 Agnostic Expert (0.0898) 的 3 倍好;当误路由到 Face 但 GT=Not-face 时,Agnostic Expert 反而 3.4 倍好
  • Gate 质量是关键瓶颈: oracle gate 使 F1 从 0.761 飙升至 0.979,说明 SCA 的改进空间巨大,未来更强的 MLLM 可直接提升系统
  • 临床意义: Face 定位误差降低 10-14% 意味着在 224x224 分辨率下预测点平均靠近真实面部区域 4-6 像素

亮点

  • 首次系统性地研究自闭症儿童注视目标检测,首创 AGT 数据集(16,582 帧),填补重要空白
  • "分而治之"的 SACF 框架设计优雅:利用 MLLM 做粗粒度社交场景判断 + 专家模型做细粒度定位,有效解决极端类别不平衡
  • Upper Bound 分析清晰指出了瓶颈(gate 质量),且随 MLLM 的发展系统性能可自然提升
  • 问题定义有强临床价值,连接了 AI 与自闭症早期干预

局限性 / 可改进方向

  • SCA 模块(Qwen2.5-VL-7B)的 Face 召回率仅 65.53%,是系统主要瓶颈
  • 框架引入了多个模型(MLLM + 两个专家),推理成本较高
  • AGT 数据集来自单一评估场景(CSBS-DP),泛化到其他自然场景需验证
  • 仅使用 Face/Not Face 二分类,更细粒度的目标语义(如特定玩具、特定人)未建模
  • 未探索时序信息(视频帧间的注视轨迹),可能对联合注意力检测更有价值

与相关工作的对比

  • vs GazeLLE / Sharingan (Childplay 训练): 这些模型在神经典型数据上训练,仍偏向高频社交注视分布,直接用于自闭症场景 F1 仅 0.49-0.57;AGT 微调后 F1 提至 0.67-0.75,SACF 进一步提升
  • vs 直接微调 (GazeLLE-AGT): 直接在 AGT 上微调虽改善整体 L2,但由于类别不平衡,Face L2 反而可能恶化(GazeLLE: 0.1130 vs 原始 0.1092);SACF 通过路由专家解决此矛盾
  • vs Qwen2.5-VL 直接做注视检测: MLLM 擅长场景理解但不擅长精确空间定位,SACF 将 MLLM 限定在粗粒度判断角色,精确定位交给专门的注视模型

启发与关联

  • MLLM 作为"场景语义路由器"的设计模式可推广到其他存在严重类别不平衡的视觉任务
  • "粗粒度语义判断 + 细粒度专家定位"的两阶段框架在医学影像等领域有类似适用场景
  • 自闭症 AI 评估工具的研发可推进至联合注意力自动评分、干预效果量化跟踪等方向
  • AGT 数据集可作为研究域迁移和极端类别不平衡的 benchmark

评分

  • 新颖性: ⭐⭐⭐⭐ 首次定义并解决自闭症注视检测问题,MLLM 路由专家框架有创意;但技术上是已有组件的组合
  • 实验充分度: ⭐⭐⭐⭐ 多 baseline 对比充分,upper bound 分析有洞察力;但缺乏跨场景泛化实验
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、问题定义准确、临床意义阐述充分,是社会影响力导向研究的写作典范
  • 价值: ⭐⭐⭐⭐ 社会意义重大,为 AI 辅助自闭症评估奠定基础;技术方案对其他不平衡检测任务也有参考价值