DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images¶
会议: NeurIPS 2025
arXiv: 2509.16767
代码: 有 (https://diff-eye.github.io/)
领域: 图像生成 / 扩散模型 / 眼动追踪
关键词: 扩散模型, 眼动轨迹生成, 注视路径预测, 视觉注意力建模, 对应位置嵌入
一句话总结¶
提出 DiffEye,首个基于扩散模型直接利用原始眼动轨迹数据、以自然图像为条件生成连续且多样化眼动轨迹的框架,同时引入对应位置嵌入 (CPE) 对齐注视空间与图像语义空间。
研究背景与动机¶
- 眼动追踪的重要性:眼动追踪为 VR、发育科学(如自闭症研究)、广告效果分析等领域提供关键的视觉注意力数据,但数据采集成本高、耗时长
- 现有方法的两大缺陷:
- 多数方法在 scanpath(离散注视点序列)上操作,丢失了原始轨迹的丰富时空信息(MIT1003 中平均 scanpath 仅 8.4 步 vs 原始轨迹 723.7 步)
- 现有方法要么用自回归采样模拟变异性,要么做确定性预测,无法真正捕获人类注视行为的固有分布
- 核心假设:利用完整眼动轨迹训练生成模型,可以比 scanpath 方法更有效地表征视觉注意力动态;扩散模型特别适合建模这种内在随机性
方法详解¶
整体框架¶
DiffEye 采用 DDPM 框架学习条件分布 \(p_\theta(\mathcal{R}|\mathcal{S})\),即给定视觉刺激 \(I\) 下的眼动轨迹分布:
- 输入:视觉刺激图像 \(I \in \mathbb{R}^{H \times W \times 3}\)(resize 到 224×224)和固定长度轨迹 \(R \in \mathbb{R}^{L \times 2}\)(L=720)
- 前向过程:对轨迹逐步加高斯噪声,共 \(T_{diff}=1000\) 步
- 反向过程:U-Net 预测噪声,以图像为条件逐步去噪恢复真实轨迹
- 推理时:从纯噪声出发,用 DDIM 采样 50 步生成轨迹,可转换为 scanpath 或 saliency map
关键设计¶
1. 基础模型:1D U-Net¶
- 下采样、中间、上采样块结构,使用 1D 卷积对轨迹进行时间维度的降采样/升采样
- 每个块内含自注意力层捕捉轨迹的时间依赖关系
- 扩散时间步 \(t_{diff}\) 通过正弦位置编码 + MLP + SiLU 注入各块
2. 图像条件注入机制(逐步演进)¶
| 方案 | 方式 | 效果 |
|---|---|---|
| 全局特征 | DINOv2 全局向量拼接到轨迹 token | 生成质量差,缺乏空间语义 |
| Patch 特征 + 单层交叉注意力 | DINOv2 patch token 与轨迹 token 做交叉注意力 | 条件注入不充分 |
| Patch 特征 + 多层交叉注意力 | 每个 U-Net 块末尾加交叉注意力 | 显著提升 |
| FeatUp 高分辨率特征 | 替换 DINOv2 patch 为 FeatUp(32×32 vs 16×16) | 最终方案,空间精度更高 |
3. 对应位置嵌入 (CPE) — 核心创新¶
CPE 的关键思想:让轨迹 token 和图像 patch token 共享同一套 2D 正弦位置编码网格,实现空间对齐:
- 构建位置嵌入网格 \(P \in \mathbb{R}^{H \times W \times D}\)
- 对于轨迹第 \(i\) 步坐标 \((x_i, y_i)\),从网格提取对应位置编码:\(R_i^{CPE} = R_{proj}[i] + P[y_i, x_i, :]\)
- 对图像特征,插值位置网格到 patch 分辨率后加到特征上:\(F_{CPE} = F_{proj} + P'\)
- 在交叉注意力中,同一空间位置的轨迹点和图像 patch 获得匹配的位置信号
4. 数据预处理¶
- 使用 MIT1003 数据集(15 名被试 × 1003 张图 × 3 秒自由观看,240Hz 采样)
- 去除眨眼和 NaN,保留 ≥720 步的序列,最终 8,934 条轨迹
- 统一截取/下采样到 720 步,90%/10% 按图像划分训练/测试集
损失函数 / 训练策略¶
- 损失函数:标准 DDPM 噪声预测损失 \(\min_\theta \mathbb{E}_{t,R^{(0)},\epsilon}\left[\|\epsilon - \epsilon_\theta(R^{(t)}, t, I)\|^2\right]\)
- Adam 优化器,固定学习率 \(1 \times 10^{-4}\),训练 3000 epochs
- 线性噪声调度 \([1 \times 10^{-4}, 2 \times 10^{-2}]\)
- 使用 Classifier-Free Guidance (CFG) 增强条件控制
- 推理用 DDIM 50 步采样
实验关键数据¶
主实验:Scanpath 生成(MIT1003 + OSIE)¶
| 测试集 | 方法 | Levenshtein ↓ (Mean/Best) | DFD ↓ ×10² | DTW ↓ ×10³ | TDE ↓ (Mean/Best) |
|---|---|---|---|---|---|
| MIT1003 | IOR-ROI | 13.574/11.092 | 3.777/2.460 | 1.834/1.317 | 108.284/80.944 |
| MIT1003 | DeepGaze III (seen) | 14.415/11.856 | 3.553/2.160 | 1.757/1.141 | 96.456/65.408 |
| MIT1003 | DiffEye | 13.009/9.709 | 3.529/2.449 | 1.573/1.067 | 88.661/53.486 |
| OSIE | DeepGaze III | 15.507/12.532 | 3.206/2.077 | 1.765/1.166 | 84.337/57.786 |
| OSIE | DiffEye | 14.771/12.077 | 3.068/2.238 | 1.552/1.089 | 81.925/54.347 |
DiffEye 训练数据量(8,934 轨迹)远小于基线(DeepGaze III 用 615K scanpath),但全面领先。
消融实验¶
| 配置 (Scanpath) | Levenshtein ↓ ×10² | DTW ↓ ×10⁴ | TDE ↓ (Mean) |
|---|---|---|---|
| DiffEye (完整) | 0.130 | 0.157 | 88.661 |
| w/o FeatUp | 0.133 | 0.163 | 91.007 |
| w/o CPE | 0.141 | 0.180 | 100.792 |
| w/o U-Net 交叉注意力 | 0.143 | 0.189 | 107.962 |
| w/o Patch 级特征 (仅全局) | 0.153 | 0.209 | 116.226 |
关键发现¶
- 每个组件都有贡献:Patch 级特征 > 多层交叉注意力 > CPE > FeatUp 高分辨率,逐步叠加效果显著
- 小数据即可超越大规模训练的基线:DiffEye 仅用 8,934 条轨迹,超越了用 60K+ scanpath 训练的 HAT、GazeFormer
- 泛化能力强:在完全未见过的 OSIE 数据集上仍然表现最优
- 首次实现连续眼动轨迹生成:此前方法仅生成离散 scanpath
亮点与洞察¶
- 原始数据的价值:直接利用原始眼动轨迹(720 步)而非压缩的 scanpath(~8 步),信息量提升约 85 倍,显著增强了生成质量
- CPE 的巧妙设计:通过共享位置编码网格,零参数开销实现轨迹-图像空间对齐,简洁而有效
- 扩散模型的天然优势:无需自回归采样即可生成多样化轨迹,真正建模人类注视行为的随机分布特性
- 下游可转换性:生成的连续轨迹可按需转换为 scanpath 或 saliency map,一个模型服务多种任务
局限性 / 可改进方向¶
- 仅支持固定长度输出:当前固定生成 720 步 (240Hz),无法适配不同采样率和序列长度
- 数据集单一:MIT1003 是唯一提供原始眼动轨迹的自然图像数据集,规模有限
- 仅限自由观看任务:未验证在视觉搜索、视觉问答等其他视觉任务上的表现
- saliency 预测非最优:间接从轨迹转换的 saliency map 精度不及专用 saliency 模型
- 未来可探索:迁移学习、可变长度生成、个性化建模(如自闭症人群 vs 正常人群)
相关工作与启发¶
- DiffGaze (Jiao et al., 2024):360° 图像上的扩散眼动生成,但仅用全局特征条件化;DiffEye 证明 patch 级特征 + CPE 远优于全局特征
- HAT (Yang et al., 2024):统一 FV/TP/TA 三种任务的 Transformer 模型,但采样策略类似 DeepGaze III
- FeatUp (Fu et al., 2024):模型无关的特征上采样框架,为 DiffEye 提供高分辨率语义特征
- 启发:扩散模型 + 空间位置对齐的思路可推广到其他序列-图像条件生成任务
评分¶
| 维度 | 分数 | 评价 |
|---|---|---|
| 新颖性 | ★★★★☆ | 首个自然图像上的扩散眼动轨迹生成,CPE 设计巧妙 |
| 技术深度 | ★★★★☆ | 架构设计合理,消融全面,但理论分析较少 |
| 实验充分性 | ★★★★☆ | 多度量评估、多基线对比、消融研究完善 |
| 实用价值 | ★★★★☆ | 可应用于 VR、发育科学等领域,代码开源 |
| 写作质量 | ★★★★☆ | 图表清晰,动机明确,逻辑流畅 |