NEO: A Unified Language Model for Large-Scale Search, Recommendation, and Reasoning¶

日期: 2026-03-18
arXiv: 2603.17533
领域: 推荐系统/LLM
关键词: 语义标识符, 统一语言模型, 搜索推荐统一, 目录对齐, 跨任务迁移

一句话总结¶

NEO 让 decoder-only LLM 学习交织自然语言与语义标识符（SID），在单个端到端模型中支持对 1000 万级异质目录的推荐/搜索/用户理解三统一，无需工具调用，通过三阶段递进式适配实现跨任务正迁移，在真实流媒体平台验证性能超越多年优化的专用系统。

研究背景与动机¶

领域现状: 工业推荐和搜索由独立技术栈处理，导致建模碎片化、维护成本高。用户交互本身交织语言查询与行为反馈，但系统架构仍割裂。LLM 提供了统一范式的抽象，但落地面临具体挑战。
现有痛点的三个维度:
- 纯文本引用有歧义：同名不同物品、名称变化导致引用脆弱不稳定
- 嵌入序列方式不可行：长历史的密集向量注入 LLM 带宽爆炸，需架构改动
- 工具增强管道引入复杂性：编排延迟、无法端到端优化，且推荐/搜索/解释仍由不同子系统处理
核心矛盾: 需要一个能在 LLM 文本序列中精确、无歧义地引用真实目录物品的表示，同时支持语言驱动的多任务控制——既不能纯文本（有歧义），也不能纯 ID（失去语义），更不能依赖外部工具（牺牲端到端性）
核心 idea: 将 SID（语义标识符）视为一种新模态融入 LLM，通过三阶段递进式训练——(1) SID 构造 (2) 领域对齐 (3) 能力诱导——实现单模型端到端处理推荐/搜索/推理，受限解码保证零幻觉引用

方法详解¶

整体框架：三阶段递进式适配¶

Stage 1: SID 构造（语义基础） - 对每种物品类型的内容嵌入做残差 K-means 量化，每物品表示为 M=4 个离散 token（K=256 或 1024 个质心/层） - 残差分层离散化天然形成粗到细结构：早期 code 捕捉大语义区域，后续 code 精细化区内区分 - 异质目录（剧集/节目/有声书/艺术家）嵌入空间差异大，每种物品类型独立量化器 - 所有 SID token + 分隔符 [SID]/[/SID] 加入 LLM 词表（共扩展 7168+2 个 token）

Stage 2: 领域对齐（领域接地） - 冻结 LLM 骨干，仅优化 SID token 嵌入和输出头（保留语言能力的关键设计） - 三个互补目标： - SID→文本（verbalization）: 给 SID 预测对应的文本描述 - 文本→SID（grounded retrieval）: 给文本查询预测 SID——用元数据子集构造查询以减少歧义 - SID→类型（type disambiguation）: 给 SID 预测物品类型 - 三个目标鼓励 SID 在语义、检索和类型结构三个层面与语言对齐

Stage 3: 能力诱导（指令微调） - 解冻全部权重，多任务指令微调，四个任务族： - 推荐: 历史 SID 序列 → 下一物品 SID（支持跨物品类型历史） - 文本检索: 自然语言查询 → 最相关物品 SID - 推荐+解释（recsplanation）: SID + 自然语言理由的混合生成 - 用户理解: SID 历史 → 自然语言兴趣画像（用 32B LLM 蒸馏训练目标） - 所有 prompt 显式指定任务类型、目标物品类型、输出格式——实现语言可驾驶性

推理：受限解码¶

预计算所有有效 SID 元组存入前缀 trie
仅在 [SID]...[/SID] 跨度内应用 trie 掩码，确保目录有效性；跨度外限制为文本 token 防止泄漏
碰撞解决：多物品共享同一 SID 时按流行度选择

实验关键数据¶

物品表示消融（Stage 1）¶

设计选择	HR@10 变化
NEO (SID baseline)	—
原子 ID（随机排列 SID）	-59.7%
LSH 量化器（数据无关投影）	-51.2%
无元数据增强	-2.9%
协同过滤嵌入	-25.6%

训练策略消融（Stage 2）¶

策略	效果
删除 Domain Grounding 阶段	检索性能下降，收敛变慢
压缩为两阶段（合并 Stage 2+3）	性能进一步降低，目标冲突
从头训练（无预训练骨干）	显著变差
用 CPT 替代对齐	推荐接近但 MMLU 从 0.46 暴跌至 0.03

多任务性能（Stage 3）¶

任务类型	多任务 vs 单任务	vs 生产基线
Episode 推荐	多任务略优	超越/持平
Show 推荐	多任务略优	超越/持平
Audiobook 推荐	多任务略优	超越/持平
文本检索 NDCG@10	多任务优于单任务	NEO 仅用 50% 数据

关键发现¶

SID vs 原子 ID ~60% 差距：语义结构是性能的最大贡献因素
三阶段不可缩减：每阶段有不可替代的作用，CPT 方式虽推荐性能接近但毁掉语言能力（MMLU 0.46→0.03）
跨任务正迁移：搜索帮助推荐、推荐帮助搜索，多任务一致优于单任务
受限解码几乎免费：无约束时 98% SID 已有效，约束只增加小延迟换灵活性

亮点与洞察¶

自包含的大规模发现系统：单一 0.6B LLM 替代推荐/搜索/异构目录管理的多层系统栈，无需工具调用——架构简洁性对工业部署意义重大
冻结+解冻的精妙平衡：Stage 2 冻结骨干仅训练 SID embedding，保留语言能力(MMLU 0.46) 的同时完成模态对齐；CPT 方式会毁掉语言能力(MMLU 0.03)
SID 作为新模态的完整方法论：从量化设计到对齐策略到受限解码到多任务能力诱导，提供了"如何将领域实体融入 LLM"的系统化范式
跨任务正迁移的量化证据：搜索学到的文本-SID 对齐自动帮助推荐，统一空间降低数据稀疏影响

局限性 / 可改进方向¶

对标系统经过多年优化，NEO 的优势在更新基线面前能否持续需持续验证
0.6B 模型是否在更大规模（7B、70B）有进一步增益未探索
当前仅涉及推荐/搜索/理解，探索/冷启/多目标优化等其他范式未涉及
受限解码限制了推荐未见过物品的能力（新物品需更新 trie）
冷启动用户仅依赖元数据，性能距生产基线尚有差距
多语言/多区域的泛化性（用户查询语言多样）待验证

评分¶

新颖性: ⭐⭐⭐⭐ 多任务统一框架和三阶段训练范式新颖，SID 本身非首创但系统集成首次
实验充分度: ⭐⭐⭐⭐⭐ 10M 规模真实目录验证极为罕见，消融覆盖三阶段所有关键设计
价值: ⭐⭐⭐⭐⭐ 直接降低工业发现系统复杂性，提供可复制的方法论

核心贡献：SID 作为新模态 + 三阶段递进式 LLM 适配（基础→对齐→能力），实现单模型端到端搜索/推荐/用户理解统一