NEO: A Unified Language Model for Large-Scale Search, Recommendation, and Reasoning¶
日期: 2026-03-18
arXiv: 2603.17533
领域: 推荐系统/LLM
关键词: 语义标识符, 统一语言模型, 搜索推荐统一, 目录对齐, 跨任务迁移
一句话总结¶
NEO 让 decoder-only LLM 学习交织自然语言与语义标识符(SID),在单个端到端模型中支持对 1000 万级异质目录的推荐/搜索/用户理解三统一,无需工具调用,通过三阶段递进式适配实现跨任务正迁移,在真实流媒体平台验证性能超越多年优化的专用系统。
研究背景与动机¶
-
领域现状: 工业推荐和搜索由独立技术栈处理,导致建模碎片化、维护成本高。用户交互本身交织语言查询与行为反馈,但系统架构仍割裂。LLM 提供了统一范式的抽象,但落地面临具体挑战。
-
现有痛点的三个维度:
- 纯文本引用有歧义:同名不同物品、名称变化导致引用脆弱不稳定
- 嵌入序列方式不可行:长历史的密集向量注入 LLM 带宽爆炸,需架构改动
- 工具增强管道引入复杂性:编排延迟、无法端到端优化,且推荐/搜索/解释仍由不同子系统处理
-
核心矛盾: 需要一个能在 LLM 文本序列中精确、无歧义地引用真实目录物品的表示,同时支持语言驱动的多任务控制——既不能纯文本(有歧义),也不能纯 ID(失去语义),更不能依赖外部工具(牺牲端到端性)
-
核心 idea: 将 SID(语义标识符)视为一种新模态融入 LLM,通过三阶段递进式训练——(1) SID 构造 (2) 领域对齐 (3) 能力诱导——实现单模型端到端处理推荐/搜索/推理,受限解码保证零幻觉引用
方法详解¶
整体框架:三阶段递进式适配¶
Stage 1: SID 构造(语义基础)
- 对每种物品类型的内容嵌入做残差 K-means 量化,每物品表示为 M=4 个离散 token(K=256 或 1024 个质心/层)
- 残差分层离散化天然形成粗到细结构:早期 code 捕捉大语义区域,后续 code 精细化区内区分
- 异质目录(剧集/节目/有声书/艺术家)嵌入空间差异大,每种物品类型独立量化器
- 所有 SID token + 分隔符 [SID]/[/SID] 加入 LLM 词表(共扩展 7168+2 个 token)
Stage 2: 领域对齐(领域接地) - 冻结 LLM 骨干,仅优化 SID token 嵌入和输出头(保留语言能力的关键设计) - 三个互补目标: - SID→文本(verbalization): 给 SID 预测对应的文本描述 - 文本→SID(grounded retrieval): 给文本查询预测 SID——用元数据子集构造查询以减少歧义 - SID→类型(type disambiguation): 给 SID 预测物品类型 - 三个目标鼓励 SID 在语义、检索和类型结构三个层面与语言对齐
Stage 3: 能力诱导(指令微调) - 解冻全部权重,多任务指令微调,四个任务族: - 推荐: 历史 SID 序列 → 下一物品 SID(支持跨物品类型历史) - 文本检索: 自然语言查询 → 最相关物品 SID - 推荐+解释(recsplanation): SID + 自然语言理由的混合生成 - 用户理解: SID 历史 → 自然语言兴趣画像(用 32B LLM 蒸馏训练目标) - 所有 prompt 显式指定任务类型、目标物品类型、输出格式——实现语言可驾驶性
推理:受限解码¶
- 预计算所有有效 SID 元组存入前缀 trie
- 仅在
[SID]...[/SID]跨度内应用 trie 掩码,确保目录有效性;跨度外限制为文本 token 防止泄漏 - 碰撞解决:多物品共享同一 SID 时按流行度选择
实验关键数据¶
物品表示消融(Stage 1)¶
| 设计选择 | HR@10 变化 |
|---|---|
| NEO (SID baseline) | — |
| 原子 ID(随机排列 SID) | -59.7% |
| LSH 量化器(数据无关投影) | -51.2% |
| 无元数据增强 | -2.9% |
| 协同过滤嵌入 | -25.6% |
训练策略消融(Stage 2)¶
| 策略 | 效果 |
|---|---|
| 删除 Domain Grounding 阶段 | 检索性能下降,收敛变慢 |
| 压缩为两阶段(合并 Stage 2+3) | 性能进一步降低,目标冲突 |
| 从头训练(无预训练骨干) | 显著变差 |
| 用 CPT 替代对齐 | 推荐接近但 MMLU 从 0.46 暴跌至 0.03 |
多任务性能(Stage 3)¶
| 任务类型 | 多任务 vs 单任务 | vs 生产基线 |
|---|---|---|
| Episode 推荐 | 多任务略优 | 超越/持平 |
| Show 推荐 | 多任务略优 | 超越/持平 |
| Audiobook 推荐 | 多任务略优 | 超越/持平 |
| 文本检索 NDCG@10 | 多任务优于单任务 | NEO 仅用 50% 数据 |
关键发现¶
- SID vs 原子 ID ~60% 差距:语义结构是性能的最大贡献因素
- 三阶段不可缩减:每阶段有不可替代的作用,CPT 方式虽推荐性能接近但毁掉语言能力(MMLU 0.46→0.03)
- 跨任务正迁移:搜索帮助推荐、推荐帮助搜索,多任务一致优于单任务
- 受限解码几乎免费:无约束时 98% SID 已有效,约束只增加小延迟换灵活性
亮点与洞察¶
- 自包含的大规模发现系统:单一 0.6B LLM 替代推荐/搜索/异构目录管理的多层系统栈,无需工具调用——架构简洁性对工业部署意义重大
- 冻结+解冻的精妙平衡:Stage 2 冻结骨干仅训练 SID embedding,保留语言能力(MMLU 0.46) 的同时完成模态对齐;CPT 方式会毁掉语言能力(MMLU 0.03)
- SID 作为新模态的完整方法论:从量化设计到对齐策略到受限解码到多任务能力诱导,提供了"如何将领域实体融入 LLM"的系统化范式
- 跨任务正迁移的量化证据:搜索学到的文本-SID 对齐自动帮助推荐,统一空间降低数据稀疏影响
局限性 / 可改进方向¶
- 对标系统经过多年优化,NEO 的优势在更新基线面前能否持续需持续验证
- 0.6B 模型是否在更大规模(7B、70B)有进一步增益未探索
- 当前仅涉及推荐/搜索/理解,探索/冷启/多目标优化等其他范式未涉及
- 受限解码限制了推荐未见过物品的能力(新物品需更新 trie)
- 冷启动用户仅依赖元数据,性能距生产基线尚有差距
- 多语言/多区域的泛化性(用户查询语言多样)待验证
评分¶
- 新颖性: ⭐⭐⭐⭐ 多任务统一框架和三阶段训练范式新颖,SID 本身非首创但系统集成首次
- 实验充分度: ⭐⭐⭐⭐⭐ 10M 规模真实目录验证极为罕见,消融覆盖三阶段所有关键设计
- 价值: ⭐⭐⭐⭐⭐ 直接降低工业发现系统复杂性,提供可复制的方法论
核心贡献:SID 作为新模态 + 三阶段递进式 LLM 适配(基础→对齐→能力),实现单模型端到端搜索/推荐/用户理解统一