Toward Gaze Target Detection in Young Autistic Children¶

会议: AAAI 2026
arXiv: 2511.11244
代码: ShijianDeng/AGT
领域: 注视目标检测 / AI for Autism
关键词: 注视目标检测, 自闭症谱系障碍, 类别不平衡, 多模态大语言模型, 粗到细框架

一句话总结¶

针对自闭症儿童注视目标检测中面部注视（6.6%）严重不足的类别不平衡问题，提出 Socially Aware Coarse-to-Fine (SACF) 框架，用微调的 Qwen2.5-VL 作为社交上下文感知门控，将输入路由到社交感知/社交无关两个专家模型，在首创的 AGT 数据集上显著提升了面部注视检测性能（Face L2 在 Sharingan 上降低 13.9%, F1 从 0.753 提升至 0.761）。

背景与动机¶

自闭症谱系障碍 (ASD) 影响约 1/31 的八岁儿童，核心特征之一是社交注意力差异，尤其是联合注意力 (joint attention) 的发起和响应困难
联合注意力评估是早期自闭症诊断和干预的基石，但依赖高度训练的专业人员，劳动密集、难以扩展
现有注视目标检测研究几乎完全聚焦于神经典型成人/儿童，这些模型在自闭症儿童上性能大幅下降
核心原因：自闭症儿童看脸的频率远低于神经典型同龄人，导致数据中存在严重的类别不平衡（仅 6.6% 注视面部），标准模型倾向于预测非社交目标，错过关键的社交互动时刻
缺乏自闭症专用的注视目标检测数据集

核心问题¶

在自闭症儿童注视数据中面部注视极度稀缺（6.6%）的情况下，如何准确检测注视目标，特别是不丢失临床上至关重要的面部注视事件？这是一个典型的领域适应+类别不平衡联合挑战。

方法详解¶

整体框架¶

输入图像 I + 儿童头部框 B_head → Social Context Awareness (SCA) 模块（微调 Qwen2.5-VL-7B）估计社交上下文分数 s（儿童看脸的概率）→ 阈值门控路由 → 若 s 高（社交场景），输入经背景模糊增强后送入 Socially Aware Gaze Expert；若 s 低（非社交场景），送入 Socially Agnostic Gaze Expert → 专家输出 gaze heatmap → argmax 获取预测注视点 → 检查预测点是否落入成人面部框内，得到最终语义分类（Face/Not Face）。

关键设计¶

Autism Gaze Target (AGT) 数据集:
首个自闭症注视目标检测数据集，来自 59 个经伦理审批的录像，在 CSBS-DP 评估过程中录制
16,582 标注帧，训练集 9,874 帧、验证集 3,344 帧、测试集 3,364 帧
标注内容：儿童头部框、成人面部框、注视目标点及类别（目标物体/面部/人身非面部/无对象）
类别分布：Face 仅 6.6% (1,088 帧), Not Face 93.4% (15,494 帧)
双标注者一致性：Cohen's Kappa = 0.757（实质性一致）
Social Context Awareness (SCA) 模块:
使用 Qwen2.5-VL-7B-Instruct 微调为二分类器，估计儿童看脸的概率
通过阈值生成粗分类：Face 或 Not Face
SCA 性能：Face 召回率 65.53%, Not-face 召回率 98.10%, Face F1 = 0.673
利用 MLLM 的大规模预训练视觉知识来理解场景社交语境
Two-Pathway Gated Experts:
Socially Aware Gaze Expert (Ex_aware): 在增强数据集上训练，当目标确定时对不相关区域施加强高斯模糊，引导模型聚焦于合理目标（如面部），避免极端失败；专门优化面部注视场景
Socially Agnostic Gaze Expert (Ex_agnostic): 在原始未修改数据上训练，针对高频非社交和不确定场景做最大性能优化，不受 Face 类特殊需求约束
两个专家均基于 GazeLLE 架构（冻结 DINOv2 编码器 + 轻量 Transformer 解码器）或 Sharingan 架构
门控与推理:
SCA 输出路由决定使用哪个专家
最终语义分类基于空间检查：预测注视点是否落在成人面部框内
当 SCA 判断正确时（约 96%），框架能充分利用两个专家的各自优势

损失函数 / 训练策略¶

注视热图损失：像素级 Binary Cross-Entropy (BCE)，比较预测热图与高斯模糊 GT 热图
SCA 模块：在 AGT 训练集上微调 Qwen2.5-VL-7B，二分类（看脸/不看脸）
Socially Aware Expert：在背景模糊增强的数据上训练 BCE loss
Socially Agnostic Expert：在原始数据上训练 BCE loss
硬件：NVIDIA A6000 GPU

实验关键数据¶

方法	L2	L2_obj	L2_face	L2_pnf	Precision	Recall	F1
Sharingan (原始)	0.0615	0.0615	0.0647	0.0561	0.4377	0.8010	0.5660
Sharingan-AGT	0.0486	0.0451	0.0949	0.0595	0.7744	0.7330	0.7531
Sharingan-SACF (Ours)	0.0480	0.0453	0.0817	0.0616	0.7647	0.7573	0.7610
GazeLLE (原始)	0.0670	0.0630	0.1092	0.1041	0.3868	0.6553	0.4865
GazeLLE-AGT	0.0460	0.0405	0.1130	0.0804	0.6984	0.6408	0.6684
GazeLLE-SACF (Ours)	0.0453	0.0405	0.1019	0.0804	0.7041	0.6699	0.6866

Upper Bound（oracle gate）: Sharingan-SACF 可达 F1=0.9786, L2_face=0.0378；GazeLLE-SACF 可达 F1=0.9903, L2_face=0.0307

消融实验要点¶

神经典型模型在自闭症数据上失效: 原始 Sharingan/GazeLLE 训练于神经典型 Childplay 数据集，在 AGT 上 F1 仅 0.566/0.487，过度估计自闭症儿童的社交注视
Face L2 改善显著: SACF 使 Sharingan 的面部注视误差从 0.0949 降至 0.0817 (降低13.9%), GazeLLE 从 0.1130 降至 0.1019 (降低9.8%)
专家分工明确: 当 GT=Face 时，Socially Aware Expert 的 L2 = 0.0303，是 Agnostic Expert (0.0898) 的 3 倍好；当误路由到 Face 但 GT=Not-face 时，Agnostic Expert 反而 3.4 倍好
Gate 质量是关键瓶颈: oracle gate 使 F1 从 0.761 飙升至 0.979，说明 SCA 的改进空间巨大，未来更强的 MLLM 可直接提升系统
临床意义: Face 定位误差降低 10-14% 意味着在 224x224 分辨率下预测点平均靠近真实面部区域 4-6 像素

亮点¶

首次系统性地研究自闭症儿童注视目标检测，首创 AGT 数据集（16,582 帧），填补重要空白
"分而治之"的 SACF 框架设计优雅：利用 MLLM 做粗粒度社交场景判断 + 专家模型做细粒度定位，有效解决极端类别不平衡
Upper Bound 分析清晰指出了瓶颈（gate 质量），且随 MLLM 的发展系统性能可自然提升
问题定义有强临床价值，连接了 AI 与自闭症早期干预

局限性 / 可改进方向¶

SCA 模块（Qwen2.5-VL-7B）的 Face 召回率仅 65.53%，是系统主要瓶颈
框架引入了多个模型（MLLM + 两个专家），推理成本较高
AGT 数据集来自单一评估场景（CSBS-DP），泛化到其他自然场景需验证
仅使用 Face/Not Face 二分类，更细粒度的目标语义（如特定玩具、特定人）未建模
未探索时序信息（视频帧间的注视轨迹），可能对联合注意力检测更有价值

与相关工作的对比¶

vs GazeLLE / Sharingan (Childplay 训练): 这些模型在神经典型数据上训练，仍偏向高频社交注视分布，直接用于自闭症场景 F1 仅 0.49-0.57；AGT 微调后 F1 提至 0.67-0.75，SACF 进一步提升
vs 直接微调 (GazeLLE-AGT): 直接在 AGT 上微调虽改善整体 L2，但由于类别不平衡，Face L2 反而可能恶化（GazeLLE: 0.1130 vs 原始 0.1092）；SACF 通过路由专家解决此矛盾
vs Qwen2.5-VL 直接做注视检测: MLLM 擅长场景理解但不擅长精确空间定位，SACF 将 MLLM 限定在粗粒度判断角色，精确定位交给专门的注视模型

启发与关联¶

MLLM 作为"场景语义路由器"的设计模式可推广到其他存在严重类别不平衡的视觉任务
"粗粒度语义判断 + 细粒度专家定位"的两阶段框架在医学影像等领域有类似适用场景
自闭症 AI 评估工具的研发可推进至联合注意力自动评分、干预效果量化跟踪等方向
AGT 数据集可作为研究域迁移和极端类别不平衡的 benchmark

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义并解决自闭症注视检测问题，MLLM 路由专家框架有创意；但技术上是已有组件的组合
实验充分度: ⭐⭐⭐⭐ 多 baseline 对比充分，upper bound 分析有洞察力；但缺乏跨场景泛化实验
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、问题定义准确、临床意义阐述充分，是社会影响力导向研究的写作典范
价值: ⭐⭐⭐⭐ 社会意义重大，为 AI 辅助自闭症评估奠定基础；技术方案对其他不平衡检测任务也有参考价值