跳转至

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

会议: ICLR 2026
arXiv: 2507.08800
代码: neural-os.com
领域: 图像生成 / 交互式世界模型
关键词: operating system simulation, world model, diffusion rendering, GUI generation, interactive systems

一句话总结

提出 NeuralOS,使用 RNN 状态追踪 + 扩散渲染器的双组件架构,直接从用户输入事件(鼠标移动/点击/键盘)预测操作系统图形界面帧序列,首次实现用神经生成模型模拟操作系统。

研究背景与动机

  1. 领域现状:生成模型已从文本生成、图像生成发展到视频生成和交互式虚拟环境模拟(如游戏世界模型 GameGen、Oasis)。这些进展表明,计算界面有可能从手工编程转向完全生成式。

  2. 现有痛点:现有的交互式世界模型主要针对视频游戏,依赖短上下文窗口(因为游戏状态通常可从近几帧中推断)。但操作系统界面有本质不同:(1) 状态转换有长延迟(如打开 Firefox 可能需要 30 帧);(2) 用户操作空间巨大(鼠标位置是像素级的大离散空间);(3) 需要长期状态记忆(隐藏窗口、之前的操作等)。

  3. 核心矛盾:OS 界面需要即时响应不可预测的用户输入,经常引起界面的突变(如启动新应用),这与视频生成中平滑可预测的转换形成鲜明对比。模型必须同时维护精确的状态追踪和高质量视觉渲染。

  4. 本文要解决什么?:能否用神经生成模型端到端模拟操作系统的图形界面?这涉及精确的光标建模、长期状态追踪、应用程序启动/关闭等复杂交互。

  5. 切入角度:借鉴 OS 中内核(状态管理)与桌面渲染(GUI输出)的功能分离,设计 RNN(状态追踪)+ 扩散渲染器(生成画面)的双模块架构,配合多阶段训练策略。

  6. 核心idea一句话:用层次 RNN 追踪系统状态,用扩散模型渲染界面帧,通过多阶段训练让神经网络学会模拟操作系统。

方法详解

整体框架

NeuralOS 将 OS 界面模拟建模为自回归生成问题:\(P(x_{1:T}|a_{1:T};\theta) = \prod_t P(x_t|x_{<t}, a_{\leq t};\theta)\)。架构分两个组件:(1) 层次 RNN 维护内部状态;(2) UNet 扩散渲染器根据状态和用户输入生成下一帧。整体训练采用四阶段策略。

关键设计

设计1:层次 RNN 状态追踪 - 做什么:维护 OS 的内部状态(打开的应用、隐藏窗口、历史操作等) - 核心思路:两层 LSTM 架构。下层 LSTM 编码用户输入(鼠标坐标、点击、键盘),并通过多头注意力整合前一帧的视觉信息;上层 LSTM 处理注意力增强后的表示,输出反馈到下层形成循环。两层各有 4096 维隐藏状态 - 设计动机:(1) RNN 每步计算复杂度恒定,适合长序列实时模拟;(2) 相比 Transformer 的短窗口,RNN 可记忆任意远的历史状态(如隐藏的窗口);(3) 两层设计分离输入编码和状态管理

设计2:光标位置高斯编码 - 做什么:将精确的光标位置编码为空间高斯图 - 核心思路:在潜在空间构建以光标坐标为中心的二维高斯图 \(M_t(i,j) = \exp(-\frac{(i-a_t^x/s)^2 + (j-a_t^y/s)^2}{2})\),与 RNN 输出拼接后送入渲染器 - 设计动机:直接用 one-hot 编码会因潜在空间分辨率限制而丢失精度。没有高斯编码时光标位置误差达 130/95.8 像素,使用后仅 1.6/1.4 像素(<0.5% 帧尺寸)

设计3:四阶段训练流水线 - Stage 1 - RNN 预训练:用 MSE 损失预训练 RNN 预测潜在帧,解决"渲染器忽略 RNN 输出"的梯度消失问题 - Stage 2 - 联合训练:预训练 RNN + 扩散渲染器联合优化 - Stage 3 - 调度采样:以概率 p 用模型生成帧替代真实帧作为输入,缓解推理时的暴露偏差和误差积累 - Stage 4 - 上下文长度扩展:扩展训练序列长度以捕获长期依赖 - 设计动机:直接端到端训练导致渲染器忽略 RNN 输出(梯度流微弱)。分阶段训练确保每个组件都被有效利用

设计4:课程训练策略 - 做什么:先用"挑战性帧转换"(像素差异超过阈值的帧对)训练,再扩展到全数据集 - 设计动机:大部分 OS 帧转换仅涉及微小光标移动,学习信号有限。课程训练优先学习有意义的状态变化

损失函数 / 训练策略

  • Stage 1:MSE 损失(RNN 输出前 C 通道 vs 目标潜在帧)
  • Stage 2-4:标准扩散损失(DDPM)
  • 推理:DDIM 2 步采样,18 fps on H100
  • 模型参数:RNN 2.2B + UNet 263M
  • 训练资源:~23,000 GPU 小时(H200 + H100)

实验关键数据

主实验

光标位置精度

方法 Δx (pixels) Δy (pixels)
NeuralOS (with 高斯图) 1.6 1.4
NeuralOS (无高斯图) 130.0 95.8
随机基线 175.4 126.9

状态转换准确率:37.7%(73 类聚类,远超多数投票基线 1.4%)

人类辨识实验

片段长度 人类识别真实 OS 的成功率
10s 58.3%
20s 55.0%

短片段下人类仅略好于随机猜测。

消融实验

组件 影响
无高斯光标编码 Δx 从 1.6 → 130.0 px
无调度采样 (Stage 3) RMSE 误差持续增长,长序列严重退化
仅随机数据 出现虚假关联(光标移向关闭按钮就关窗口)
仅 agent 数据 交互多样性不足

关键发现

  1. 精确光标建模至关重要:高斯空间编码将光标误差从 130px 降至 1.6px
  2. RNN 预训练是必要的:没有预训练,扩散渲染器会完全忽略 RNN 输出
  3. 调度采样有效缓解误差积累:长序列生成质量显著改善
  4. 合成数据可教会新应用:Doom 从未安装但模型能通过合成示范学会模拟
  5. 数据多样性需平衡:随机+agent 两种数据源互补,任一单独使用都不够

亮点与洞察

  • 愿景宏大:首次提出并初步实现"用神经网络模拟操作系统"的想法,代表了生成模型从内容生成到系统模拟的跃迁
  • Doom 实验极具想象力:通过合成训练数据,让模型模拟从未安装的应用程序,暗示生成式界面可以完全脱离真实软件
  • 工程深度:从数据收集(64 个并行 Docker)到训练策略(4 阶段课程)到推理优化(DDIM 2步/18fps),展现了系统级工程能力
  • 光标建模的洞察:高斯空间编码简洁有效,为交互式生成模型中的精确位置控制提供了通用解决方案
  • 对 agent 训练的启发:NeuralOS 可提供安全的模拟环境供 computer-use agent 训练和评估,无需真实系统命令

局限性 / 可改进方向

  1. 分辨率受限:仅 512×384,远低于实际 OS 分辨率
  2. 应用范围窄:仅包含 Home、Trash、Terminal、Firefox 四个应用
  3. 键盘输入建模困难:计算资源限制使精确建模细粒度键盘输入受阻
  4. 训练成本极高:23,000 GPU 小时,且数据处理 + 训练约 4 个月
  5. 状态转换准确率偏低:37.7% 虽远超基线但离实用有较大差距
  6. 无法扩展到复杂真实应用:如多窗口应用、系统设置等场景

相关工作与启发

  • 与游戏世界模型(GameGen、Oasis)的区别:OS 界面需要更长期的状态记忆和更大的动作空间
  • World Labs / Genie 等交互式世界模型的联系:都在探索用生成模型替代手工编程的环境
  • computer-use agents(如 Claude computer use)的启发:提供安全训练环境
  • 对未来 UI 设计的启示:生成式界面可以根据用户需求实时个性化适配

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次提出并实现用神经生成模型模拟操作系统,开创性工作
  • 实验充分度: ⭐⭐⭐⭐ — 多角度评估(光标/状态转换/人类实验/消融),但环境简化严重
  • 写作质量: ⭐⭐⭐⭐⭐ — 叙事引人入胜,问题形式化清晰,训练策略描述详尽
  • 价值: ⭐⭐⭐⭐ — 愿景激动人心且初步验证可行,但离实际应用仍有很大距离