DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images¶

会议: NeurIPS 2025
arXiv: 2509.16767
代码: 有 (https://diff-eye.github.io/)
领域: 图像生成 / 扩散模型 / 眼动追踪
关键词: 扩散模型, 眼动轨迹生成, 注视路径预测, 视觉注意力建模, 对应位置嵌入

一句话总结¶

提出 DiffEye，首个基于扩散模型直接利用原始眼动轨迹数据、以自然图像为条件生成连续且多样化眼动轨迹的框架，同时引入对应位置嵌入 (CPE) 对齐注视空间与图像语义空间。

研究背景与动机¶

眼动追踪的重要性：眼动追踪为 VR、发育科学（如自闭症研究）、广告效果分析等领域提供关键的视觉注意力数据，但数据采集成本高、耗时长
现有方法的两大缺陷：
多数方法在 scanpath（离散注视点序列）上操作，丢失了原始轨迹的丰富时空信息（MIT1003 中平均 scanpath 仅 8.4 步 vs 原始轨迹 723.7 步）
现有方法要么用自回归采样模拟变异性，要么做确定性预测，无法真正捕获人类注视行为的固有分布
核心假设：利用完整眼动轨迹训练生成模型，可以比 scanpath 方法更有效地表征视觉注意力动态；扩散模型特别适合建模这种内在随机性

方法详解¶

整体框架¶

DiffEye 采用 DDPM 框架学习条件分布 \(p_\theta(\mathcal{R}|\mathcal{S})\)，即给定视觉刺激 \(I\) 下的眼动轨迹分布：

输入：视觉刺激图像 \(I \in \mathbb{R}^{H \times W \times 3}\)（resize 到 224×224）和固定长度轨迹 \(R \in \mathbb{R}^{L \times 2}\)（L=720）
前向过程：对轨迹逐步加高斯噪声，共 \(T_{diff}=1000\) 步
反向过程：U-Net 预测噪声，以图像为条件逐步去噪恢复真实轨迹
推理时：从纯噪声出发，用 DDIM 采样 50 步生成轨迹，可转换为 scanpath 或 saliency map

关键设计¶

1. 基础模型：1D U-Net¶

下采样、中间、上采样块结构，使用 1D 卷积对轨迹进行时间维度的降采样/升采样
每个块内含自注意力层捕捉轨迹的时间依赖关系
扩散时间步 \(t_{diff}\) 通过正弦位置编码 + MLP + SiLU 注入各块

2. 图像条件注入机制（逐步演进）¶

方案	方式	效果
全局特征	DINOv2 全局向量拼接到轨迹 token	生成质量差，缺乏空间语义
Patch 特征 + 单层交叉注意力	DINOv2 patch token 与轨迹 token 做交叉注意力	条件注入不充分
Patch 特征 + 多层交叉注意力	每个 U-Net 块末尾加交叉注意力	显著提升
FeatUp 高分辨率特征	替换 DINOv2 patch 为 FeatUp（32×32 vs 16×16）	最终方案，空间精度更高

3. 对应位置嵌入 (CPE) — 核心创新¶

CPE 的关键思想：让轨迹 token 和图像 patch token 共享同一套 2D 正弦位置编码网格，实现空间对齐：

构建位置嵌入网格 \(P \in \mathbb{R}^{H \times W \times D}\)
对于轨迹第 \(i\) 步坐标 \((x_i, y_i)\)，从网格提取对应位置编码：\(R_i^{CPE} = R_{proj}[i] + P[y_i, x_i, :]\)
对图像特征，插值位置网格到 patch 分辨率后加到特征上：\(F_{CPE} = F_{proj} + P'\)
在交叉注意力中，同一空间位置的轨迹点和图像 patch 获得匹配的位置信号

4. 数据预处理¶

使用 MIT1003 数据集（15 名被试 × 1003 张图 × 3 秒自由观看，240Hz 采样）
去除眨眼和 NaN，保留 ≥720 步的序列，最终 8,934 条轨迹
统一截取/下采样到 720 步，90%/10% 按图像划分训练/测试集

损失函数 / 训练策略¶

损失函数：标准 DDPM 噪声预测损失 \(\min_\theta \mathbb{E}_{t,R^{(0)},\epsilon}\left[\|\epsilon - \epsilon_\theta(R^{(t)}, t, I)\|^2\right]\)
Adam 优化器，固定学习率 \(1 \times 10^{-4}\)，训练 3000 epochs
线性噪声调度 \([1 \times 10^{-4}, 2 \times 10^{-2}]\)
使用 Classifier-Free Guidance (CFG) 增强条件控制
推理用 DDIM 50 步采样

实验关键数据¶

主实验：Scanpath 生成（MIT1003 + OSIE）¶

测试集	方法	Levenshtein ↓ (Mean/Best)	DFD ↓ ×10²	DTW ↓ ×10³	TDE ↓ (Mean/Best)
MIT1003	IOR-ROI	13.574/11.092	3.777/2.460	1.834/1.317	108.284/80.944
MIT1003	DeepGaze III (seen)	14.415/11.856	3.553/2.160	1.757/1.141	96.456/65.408
MIT1003	DiffEye	13.009/9.709	3.529/2.449	1.573/1.067	88.661/53.486
OSIE	DeepGaze III	15.507/12.532	3.206/2.077	1.765/1.166	84.337/57.786
OSIE	DiffEye	14.771/12.077	3.068/2.238	1.552/1.089	81.925/54.347

DiffEye 训练数据量（8,934 轨迹）远小于基线（DeepGaze III 用 615K scanpath），但全面领先。

消融实验¶

配置 (Scanpath)	Levenshtein ↓ ×10²	DTW ↓ ×10⁴	TDE ↓ (Mean)
DiffEye (完整)	0.130	0.157	88.661
w/o FeatUp	0.133	0.163	91.007
w/o CPE	0.141	0.180	100.792
w/o U-Net 交叉注意力	0.143	0.189	107.962
w/o Patch 级特征 (仅全局)	0.153	0.209	116.226

关键发现¶

每个组件都有贡献：Patch 级特征 > 多层交叉注意力 > CPE > FeatUp 高分辨率，逐步叠加效果显著
小数据即可超越大规模训练的基线：DiffEye 仅用 8,934 条轨迹，超越了用 60K+ scanpath 训练的 HAT、GazeFormer
泛化能力强：在完全未见过的 OSIE 数据集上仍然表现最优
首次实现连续眼动轨迹生成：此前方法仅生成离散 scanpath

亮点与洞察¶

原始数据的价值：直接利用原始眼动轨迹（720 步）而非压缩的 scanpath（~8 步），信息量提升约 85 倍，显著增强了生成质量
CPE 的巧妙设计：通过共享位置编码网格，零参数开销实现轨迹-图像空间对齐，简洁而有效
扩散模型的天然优势：无需自回归采样即可生成多样化轨迹，真正建模人类注视行为的随机分布特性
下游可转换性：生成的连续轨迹可按需转换为 scanpath 或 saliency map，一个模型服务多种任务

局限性 / 可改进方向¶

仅支持固定长度输出：当前固定生成 720 步 (240Hz)，无法适配不同采样率和序列长度
数据集单一：MIT1003 是唯一提供原始眼动轨迹的自然图像数据集，规模有限
仅限自由观看任务：未验证在视觉搜索、视觉问答等其他视觉任务上的表现
saliency 预测非最优：间接从轨迹转换的 saliency map 精度不及专用 saliency 模型
未来可探索：迁移学习、可变长度生成、个性化建模（如自闭症人群 vs 正常人群）

评分¶

维度	分数	评价
新颖性	★★★★☆	首个自然图像上的扩散眼动轨迹生成，CPE 设计巧妙
技术深度	★★★★☆	架构设计合理，消融全面，但理论分析较少
实验充分性	★★★★☆	多度量评估、多基线对比、消融研究完善
实用价值	★★★★☆	可应用于 VR、发育科学等领域，代码开源
写作质量	★★★★☆	图表清晰，动机明确，逻辑流畅