NeuralOS: Towards Simulating Operating Systems via Neural Generative Models¶

会议: ICLR 2026
arXiv: 2507.08800
代码: neural-os.com
领域: 图像生成 / 交互式世界模型
关键词: operating system simulation, world model, diffusion rendering, GUI generation, interactive systems

一句话总结¶

提出 NeuralOS，使用 RNN 状态追踪 + 扩散渲染器的双组件架构，直接从用户输入事件（鼠标移动/点击/键盘）预测操作系统图形界面帧序列，首次实现用神经生成模型模拟操作系统。

研究背景与动机¶

领域现状：生成模型已从文本生成、图像生成发展到视频生成和交互式虚拟环境模拟（如游戏世界模型 GameGen、Oasis）。这些进展表明，计算界面有可能从手工编程转向完全生成式。
现有痛点：现有的交互式世界模型主要针对视频游戏，依赖短上下文窗口（因为游戏状态通常可从近几帧中推断）。但操作系统界面有本质不同：(1) 状态转换有长延迟（如打开 Firefox 可能需要 30 帧）；(2) 用户操作空间巨大（鼠标位置是像素级的大离散空间）；(3) 需要长期状态记忆（隐藏窗口、之前的操作等）。
核心矛盾：OS 界面需要即时响应不可预测的用户输入，经常引起界面的突变（如启动新应用），这与视频生成中平滑可预测的转换形成鲜明对比。模型必须同时维护精确的状态追踪和高质量视觉渲染。
本文要解决什么？：能否用神经生成模型端到端模拟操作系统的图形界面？这涉及精确的光标建模、长期状态追踪、应用程序启动/关闭等复杂交互。
切入角度：借鉴 OS 中内核（状态管理）与桌面渲染（GUI输出）的功能分离，设计 RNN（状态追踪）+ 扩散渲染器（生成画面）的双模块架构，配合多阶段训练策略。
核心idea一句话：用层次 RNN 追踪系统状态，用扩散模型渲染界面帧，通过多阶段训练让神经网络学会模拟操作系统。

方法详解¶

整体框架¶

NeuralOS 将 OS 界面模拟建模为自回归生成问题：\(P(x_{1:T}|a_{1:T};\theta) = \prod_t P(x_t|x_{<t}, a_{\leq t};\theta)\)。架构分两个组件：(1) 层次 RNN 维护内部状态；(2) UNet 扩散渲染器根据状态和用户输入生成下一帧。整体训练采用四阶段策略。

关键设计¶

设计1：层次 RNN 状态追踪 - 做什么：维护 OS 的内部状态（打开的应用、隐藏窗口、历史操作等） - 核心思路：两层 LSTM 架构。下层 LSTM 编码用户输入（鼠标坐标、点击、键盘），并通过多头注意力整合前一帧的视觉信息；上层 LSTM 处理注意力增强后的表示，输出反馈到下层形成循环。两层各有 4096 维隐藏状态 - 设计动机：(1) RNN 每步计算复杂度恒定，适合长序列实时模拟；(2) 相比 Transformer 的短窗口，RNN 可记忆任意远的历史状态（如隐藏的窗口）；(3) 两层设计分离输入编码和状态管理

设计2：光标位置高斯编码 - 做什么：将精确的光标位置编码为空间高斯图 - 核心思路：在潜在空间构建以光标坐标为中心的二维高斯图 \(M_t(i,j) = \exp(-\frac{(i-a_t^x/s)^2 + (j-a_t^y/s)^2}{2})\)，与 RNN 输出拼接后送入渲染器 - 设计动机：直接用 one-hot 编码会因潜在空间分辨率限制而丢失精度。没有高斯编码时光标位置误差达 130/95.8 像素，使用后仅 1.6/1.4 像素（<0.5% 帧尺寸）

设计3：四阶段训练流水线 - Stage 1 - RNN 预训练：用 MSE 损失预训练 RNN 预测潜在帧，解决"渲染器忽略 RNN 输出"的梯度消失问题 - Stage 2 - 联合训练：预训练 RNN + 扩散渲染器联合优化 - Stage 3 - 调度采样：以概率 p 用模型生成帧替代真实帧作为输入，缓解推理时的暴露偏差和误差积累 - Stage 4 - 上下文长度扩展：扩展训练序列长度以捕获长期依赖 - 设计动机：直接端到端训练导致渲染器忽略 RNN 输出（梯度流微弱）。分阶段训练确保每个组件都被有效利用

设计4：课程训练策略 - 做什么：先用"挑战性帧转换"（像素差异超过阈值的帧对）训练，再扩展到全数据集 - 设计动机：大部分 OS 帧转换仅涉及微小光标移动，学习信号有限。课程训练优先学习有意义的状态变化

损失函数 / 训练策略¶

Stage 1：MSE 损失（RNN 输出前 C 通道 vs 目标潜在帧）
Stage 2-4：标准扩散损失（DDPM）
推理：DDIM 2 步采样，18 fps on H100
模型参数：RNN 2.2B + UNet 263M
训练资源：~23,000 GPU 小时（H200 + H100）

实验关键数据¶

主实验¶

光标位置精度

方法	Δx (pixels)	Δy (pixels)
NeuralOS (with 高斯图)	1.6	1.4
NeuralOS (无高斯图)	130.0	95.8
随机基线	175.4	126.9

状态转换准确率：37.7%（73 类聚类，远超多数投票基线 1.4%）

人类辨识实验：

片段长度	人类识别真实 OS 的成功率
10s	58.3%
20s	55.0%

短片段下人类仅略好于随机猜测。

消融实验¶

组件	影响
无高斯光标编码	Δx 从 1.6 → 130.0 px
无调度采样 (Stage 3)	RMSE 误差持续增长，长序列严重退化
仅随机数据	出现虚假关联（光标移向关闭按钮就关窗口）
仅 agent 数据	交互多样性不足

关键发现¶

精确光标建模至关重要：高斯空间编码将光标误差从 130px 降至 1.6px
RNN 预训练是必要的：没有预训练，扩散渲染器会完全忽略 RNN 输出
调度采样有效缓解误差积累：长序列生成质量显著改善
合成数据可教会新应用：Doom 从未安装但模型能通过合成示范学会模拟
数据多样性需平衡：随机+agent 两种数据源互补，任一单独使用都不够

亮点与洞察¶

愿景宏大：首次提出并初步实现"用神经网络模拟操作系统"的想法，代表了生成模型从内容生成到系统模拟的跃迁
Doom 实验极具想象力：通过合成训练数据，让模型模拟从未安装的应用程序，暗示生成式界面可以完全脱离真实软件
工程深度：从数据收集（64 个并行 Docker）到训练策略（4 阶段课程）到推理优化（DDIM 2步/18fps），展现了系统级工程能力
光标建模的洞察：高斯空间编码简洁有效，为交互式生成模型中的精确位置控制提供了通用解决方案
对 agent 训练的启发：NeuralOS 可提供安全的模拟环境供 computer-use agent 训练和评估，无需真实系统命令

局限性 / 可改进方向¶

分辨率受限：仅 512×384，远低于实际 OS 分辨率
应用范围窄：仅包含 Home、Trash、Terminal、Firefox 四个应用
键盘输入建模困难：计算资源限制使精确建模细粒度键盘输入受阻
训练成本极高：23,000 GPU 小时，且数据处理 + 训练约 4 个月
状态转换准确率偏低：37.7% 虽远超基线但离实用有较大差距
无法扩展到复杂真实应用：如多窗口应用、系统设置等场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次提出并实现用神经生成模型模拟操作系统，开创性工作
实验充分度: ⭐⭐⭐⭐ — 多角度评估（光标/状态转换/人类实验/消融），但环境简化严重
写作质量: ⭐⭐⭐⭐⭐ — 叙事引人入胜，问题形式化清晰，训练策略描述详尽
价值: ⭐⭐⭐⭐ — 愿景激动人心且初步验证可行，但离实际应用仍有很大距离