跳转至

NEO: A Unified Language Model for Large-Scale Search, Recommendation, and Reasoning

日期: 2026-03-18
arXiv: 2603.17533
领域: 推荐系统/LLM
关键词: 语义标识符, 统一语言模型, 搜索推荐统一, 目录对齐, 跨任务迁移

一句话总结

NEO 让 decoder-only LLM 学习交织自然语言与语义标识符(SID),在单个端到端模型中支持对 1000 万级异质目录的推荐/搜索/用户理解三统一,无需工具调用,通过三阶段递进式适配实现跨任务正迁移,在真实流媒体平台验证性能超越多年优化的专用系统。

研究背景与动机

  1. 领域现状: 工业推荐和搜索由独立技术栈处理,导致建模碎片化、维护成本高。用户交互本身交织语言查询与行为反馈,但系统架构仍割裂。LLM 提供了统一范式的抽象,但落地面临具体挑战。

  2. 现有痛点的三个维度:

    • 纯文本引用有歧义:同名不同物品、名称变化导致引用脆弱不稳定
    • 嵌入序列方式不可行:长历史的密集向量注入 LLM 带宽爆炸,需架构改动
    • 工具增强管道引入复杂性:编排延迟、无法端到端优化,且推荐/搜索/解释仍由不同子系统处理
  3. 核心矛盾: 需要一个能在 LLM 文本序列中精确、无歧义地引用真实目录物品的表示,同时支持语言驱动的多任务控制——既不能纯文本(有歧义),也不能纯 ID(失去语义),更不能依赖外部工具(牺牲端到端性)

  4. 核心 idea: 将 SID(语义标识符)视为一种新模态融入 LLM,通过三阶段递进式训练——(1) SID 构造 (2) 领域对齐 (3) 能力诱导——实现单模型端到端处理推荐/搜索/推理,受限解码保证零幻觉引用

方法详解

整体框架:三阶段递进式适配

Stage 1: SID 构造(语义基础) - 对每种物品类型的内容嵌入做残差 K-means 量化,每物品表示为 M=4 个离散 token(K=256 或 1024 个质心/层) - 残差分层离散化天然形成粗到细结构:早期 code 捕捉大语义区域,后续 code 精细化区内区分 - 异质目录(剧集/节目/有声书/艺术家)嵌入空间差异大,每种物品类型独立量化器 - 所有 SID token + 分隔符 [SID]/[/SID] 加入 LLM 词表(共扩展 7168+2 个 token)

Stage 2: 领域对齐(领域接地) - 冻结 LLM 骨干,仅优化 SID token 嵌入和输出头(保留语言能力的关键设计) - 三个互补目标: - SID→文本(verbalization): 给 SID 预测对应的文本描述 - 文本→SID(grounded retrieval): 给文本查询预测 SID——用元数据子集构造查询以减少歧义 - SID→类型(type disambiguation): 给 SID 预测物品类型 - 三个目标鼓励 SID 在语义、检索和类型结构三个层面与语言对齐

Stage 3: 能力诱导(指令微调) - 解冻全部权重,多任务指令微调,四个任务族: - 推荐: 历史 SID 序列 → 下一物品 SID(支持跨物品类型历史) - 文本检索: 自然语言查询 → 最相关物品 SID - 推荐+解释(recsplanation): SID + 自然语言理由的混合生成 - 用户理解: SID 历史 → 自然语言兴趣画像(用 32B LLM 蒸馏训练目标) - 所有 prompt 显式指定任务类型、目标物品类型、输出格式——实现语言可驾驶性

推理:受限解码

  • 预计算所有有效 SID 元组存入前缀 trie
  • 仅在 [SID]...[/SID] 跨度内应用 trie 掩码,确保目录有效性;跨度外限制为文本 token 防止泄漏
  • 碰撞解决:多物品共享同一 SID 时按流行度选择

实验关键数据

物品表示消融(Stage 1)

设计选择 HR@10 变化
NEO (SID baseline)
原子 ID(随机排列 SID) -59.7%
LSH 量化器(数据无关投影) -51.2%
无元数据增强 -2.9%
协同过滤嵌入 -25.6%

训练策略消融(Stage 2)

策略 效果
删除 Domain Grounding 阶段 检索性能下降,收敛变慢
压缩为两阶段(合并 Stage 2+3) 性能进一步降低,目标冲突
从头训练(无预训练骨干) 显著变差
用 CPT 替代对齐 推荐接近但 MMLU 从 0.46 暴跌至 0.03

多任务性能(Stage 3)

任务类型 多任务 vs 单任务 vs 生产基线
Episode 推荐 多任务略优 超越/持平
Show 推荐 多任务略优 超越/持平
Audiobook 推荐 多任务略优 超越/持平
文本检索 NDCG@10 多任务优于单任务 NEO 仅用 50% 数据

关键发现

  • SID vs 原子 ID ~60% 差距:语义结构是性能的最大贡献因素
  • 三阶段不可缩减:每阶段有不可替代的作用,CPT 方式虽推荐性能接近但毁掉语言能力(MMLU 0.46→0.03)
  • 跨任务正迁移:搜索帮助推荐、推荐帮助搜索,多任务一致优于单任务
  • 受限解码几乎免费:无约束时 98% SID 已有效,约束只增加小延迟换灵活性

亮点与洞察

  • 自包含的大规模发现系统:单一 0.6B LLM 替代推荐/搜索/异构目录管理的多层系统栈,无需工具调用——架构简洁性对工业部署意义重大
  • 冻结+解冻的精妙平衡:Stage 2 冻结骨干仅训练 SID embedding,保留语言能力(MMLU 0.46) 的同时完成模态对齐;CPT 方式会毁掉语言能力(MMLU 0.03)
  • SID 作为新模态的完整方法论:从量化设计到对齐策略到受限解码到多任务能力诱导,提供了"如何将领域实体融入 LLM"的系统化范式
  • 跨任务正迁移的量化证据:搜索学到的文本-SID 对齐自动帮助推荐,统一空间降低数据稀疏影响

局限性 / 可改进方向

  • 对标系统经过多年优化,NEO 的优势在更新基线面前能否持续需持续验证
  • 0.6B 模型是否在更大规模(7B、70B)有进一步增益未探索
  • 当前仅涉及推荐/搜索/理解,探索/冷启/多目标优化等其他范式未涉及
  • 受限解码限制了推荐未见过物品的能力(新物品需更新 trie)
  • 冷启动用户仅依赖元数据,性能距生产基线尚有差距
  • 多语言/多区域的泛化性(用户查询语言多样)待验证

评分

  • 新颖性: ⭐⭐⭐⭐ 多任务统一框架和三阶段训练范式新颖,SID 本身非首创但系统集成首次
  • 实验充分度: ⭐⭐⭐⭐⭐ 10M 规模真实目录验证极为罕见,消融覆盖三阶段所有关键设计
  • 价值: ⭐⭐⭐⭐⭐ 直接降低工业发现系统复杂性,提供可复制的方法论

核心贡献:SID 作为新模态 + 三阶段递进式 LLM 适配(基础→对齐→能力),实现单模型端到端搜索/推荐/用户理解统一