Seed1.8 Model Card: Towards Generalized Real-World Agency¶
日期: 2026-03-21
arXiv: 2603.20633
代码: 无
领域: 多模态/VLM / LLM Agent
关键词: foundation model, agentic AI, GUI agent, multi-step reasoning, thinking modes
一句话总结¶
字节跳动发布 Seed1.8 模型卡,一个面向通用真实世界代理的大模型,在保持 LLM/VLM 基础能力(推理、知识、指令遵循)的同时,统一支持搜索、代码执行和 GUI 交互的多步骤 Agent 工作流,提供四级思考模式平衡延迟与质量,在 AIME-25(94.3)、HMMT-25(89.7)等多个 benchmark 上达到或接近 GPT-5/Gemini-3-pro 水平。
研究背景与动机¶
-
领域现状: 前沿模型(GPT-5, Claude-Sonnet-4.5, Gemini-3-pro)在推理、代码和多模态理解上能力强大,但从单轮预测到交互式多步任务执行仍有差距。
-
设计目标: (a) 保持强基础能力(推理/知识/指令遵循);(b) 统一 Agent 交互——搜索+代码执行+GUI 操作在单一模型中完成;(c) 延迟和成本感知——四级思考模式(no_think/低/中/高)可配置;(d) 实际应用对齐的评估。
方法详解¶
四级思考模式¶
- no_think: 无额外推理,最低延迟
- think-low/medium/high: 递增的推理深度,更高计算成本但更高质量
- 允许用户根据任务复杂度灵活配置
统一 Agent 能力¶
- 搜索: 信息收集和证据综合
- 代码执行: 程序修改和工具编排
- GUI 交互: 直接操作视觉界面(截图/文档/图表/视频)——当 API 不可用时的 fallback
优化的视觉编码¶
- 减少图像/视频输入的 token 消耗,降低多模态和长上下文场景的推理成本
实验关键数据¶
数学推理¶
| Benchmark | GPT-5 High | Gemini-3-pro | Seed1.8 |
|---|---|---|---|
| AIME-25 | 94.6 | 95.0 | 94.3 |
| HMMT-25 | 88.3 | 97.5 | 89.7 |
| BeyondAIME | 74.0 | 83.0 | 77.0 |
代码推理¶
| Benchmark | GPT-5 High | Gemini-3-pro | Seed1.8 |
|---|---|---|---|
| AetherCode | 43.3 | 56.7 | 38.2 |
| LiveCodeBench v6 | 87.0 | 90.7 | 79.5 |
指令遵循¶
| Benchmark | GPT-5 High | Gemini-3-pro | Seed1.8 |
|---|---|---|---|
| Inverse IFEval | 78.9 | 80.6 | 80.3 |
| MultiChallenge | 69.6 | 67.4 | 66.7 |
关键发现¶
- Seed1.8 在数学推理上紧随 GPT-5 和 Gemini-3-pro,多数 benchmark 排名第二
- 代码能力相对较弱(AetherCode 38.2 vs GPT-5 43.3/Gemini-3 56.7)
- 指令遵循能力突出(Inverse IFEval 80.3 仅次于 Gemini-3 的 80.6)
- 多模态和 Agent 能力通过统一接口提供,减少了任务特定管线的需求
亮点与洞察¶
- 四级思考模式是务实的工程设计——不同任务不需要同等推理深度
- 统一 Agent 框架(搜索+代码+GUI)比管线式组装更简洁
-
作为 model card 发布,透明度值得肯定
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
局限性 / 可改进方向¶
- 代码能力相比竞品有明显差距
- Agent 能力的评估细节相对模糊,缺少具体 Agent benchmark 结果
- 缺少开源计划
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐ 主要是工程集成而非方法创新
- 实验充分度: ⭐⭐⭐⭐ Benchmark 覆盖全面,对比模型有代表性
- 价值: ⭐⭐⭐⭐ 展示了统一 Agent 模型的可行性