跳转至

Seed1.8 Model Card: Towards Generalized Real-World Agency

日期: 2026-03-21
arXiv: 2603.20633
代码: 无
领域: 多模态/VLM / LLM Agent
关键词: foundation model, agentic AI, GUI agent, multi-step reasoning, thinking modes

一句话总结

字节跳动发布 Seed1.8 模型卡,一个面向通用真实世界代理的大模型,在保持 LLM/VLM 基础能力(推理、知识、指令遵循)的同时,统一支持搜索、代码执行和 GUI 交互的多步骤 Agent 工作流,提供四级思考模式平衡延迟与质量,在 AIME-25(94.3)、HMMT-25(89.7)等多个 benchmark 上达到或接近 GPT-5/Gemini-3-pro 水平。

研究背景与动机

  1. 领域现状: 前沿模型(GPT-5, Claude-Sonnet-4.5, Gemini-3-pro)在推理、代码和多模态理解上能力强大,但从单轮预测到交互式多步任务执行仍有差距。

  2. 设计目标: (a) 保持强基础能力(推理/知识/指令遵循);(b) 统一 Agent 交互——搜索+代码执行+GUI 操作在单一模型中完成;(c) 延迟和成本感知——四级思考模式(no_think/低/中/高)可配置;(d) 实际应用对齐的评估。

方法详解

四级思考模式

  • no_think: 无额外推理,最低延迟
  • think-low/medium/high: 递增的推理深度,更高计算成本但更高质量
  • 允许用户根据任务复杂度灵活配置

统一 Agent 能力

  • 搜索: 信息收集和证据综合
  • 代码执行: 程序修改和工具编排
  • GUI 交互: 直接操作视觉界面(截图/文档/图表/视频)——当 API 不可用时的 fallback

优化的视觉编码

  • 减少图像/视频输入的 token 消耗,降低多模态和长上下文场景的推理成本

实验关键数据

数学推理

Benchmark GPT-5 High Gemini-3-pro Seed1.8
AIME-25 94.6 95.0 94.3
HMMT-25 88.3 97.5 89.7
BeyondAIME 74.0 83.0 77.0

代码推理

Benchmark GPT-5 High Gemini-3-pro Seed1.8
AetherCode 43.3 56.7 38.2
LiveCodeBench v6 87.0 90.7 79.5

指令遵循

Benchmark GPT-5 High Gemini-3-pro Seed1.8
Inverse IFEval 78.9 80.6 80.3
MultiChallenge 69.6 67.4 66.7

关键发现

  • Seed1.8 在数学推理上紧随 GPT-5 和 Gemini-3-pro,多数 benchmark 排名第二
  • 代码能力相对较弱(AetherCode 38.2 vs GPT-5 43.3/Gemini-3 56.7)
  • 指令遵循能力突出(Inverse IFEval 80.3 仅次于 Gemini-3 的 80.6)
  • 多模态和 Agent 能力通过统一接口提供,减少了任务特定管线的需求

亮点与洞察

  • 四级思考模式是务实的工程设计——不同任务不需要同等推理深度
  • 统一 Agent 框架(搜索+代码+GUI)比管线式组装更简洁
  • 作为 model card 发布,透明度值得肯定

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 代码能力相比竞品有明显差距
  • Agent 能力的评估细节相对模糊,缺少具体 Agent benchmark 结果
  • 缺少开源计划
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐ 主要是工程集成而非方法创新
  • 实验充分度: ⭐⭐⭐⭐ Benchmark 覆盖全面,对比模型有代表性
  • 价值: ⭐⭐⭐⭐ 展示了统一 Agent 模型的可行性