LANTERN: Modeling User Behavior from Adaptive Surveys with Supplemental Context¶
会议: ICML 2025
arXiv: 2507.20919
代码: 无
领域: 用户行为建模 / 推荐系统
关键词: 调查数据融合, 后期融合, 交叉注意力, 选择性门控, 多标签预测, 表格数据
一句话总结¶
提出LANTERN(Late-Attentive Network for Enriched Response Modeling),一个模块化的用户行为建模架构,将自适应调查数据作为主信号,通过交叉注意力实现后期融合,选择性门控和残差连接保持调查信号的主导地位,外部上下文(人口统计、行为日志等)仅在相关时被融入,在约35,000用户的生产级数据集上以F1=0.775显著超越纯调查基线的0.734。
研究背景与动机¶
领域现状: 理解用户行为是应用机器学习的基础挑战。调查是收集用户行为数据的经典方式,具有结构化、高保真、可解释性等优势。在营销、医疗、公共政策等领域,调查提供了关于用户偏好、决策和体验的纵向洞察。
现有痛点: 调查数据存在固有限制——用户疲劳导致回答不完整、问卷长度受限使覆盖面有限、条件性问题设计使某些属性的观测非常稀疏。补充性信号(人口统计、参与度指标、交易记录)虽然量大但噪声高且可能有偏,简单拼接会引入特征膨胀问题。
核心矛盾: 调查数据高保真但覆盖不足,外部数据覆盖广但噪声大。如何在融合两者时保持调查信号的主导地位,同时有选择地利用外部信号弥补调查的不足?
本文目标: 设计一个架构使调查数据保持中心地位,仅在外部信号有助于行为预测时选择性地融入,且模块化支持新数据源的灵活集成。
切入角度: 采用后期融合(late fusion)策略,用调查嵌入作为query查询外部嵌入——这意味着外部信息只在调查问"需要什么"时才被检索,而非不加区分地混合。
核心 idea: 用调查嵌入作为交叉注意力的query、外部数据嵌入作为key/value实现后期融合,加上选择性门控\(g\)和残差连接\(h_{fused} = h_s + g \odot (h_t - h_s)\)确保调查信号主导,构建"调查主导、补充辅助"的用户行为建模范式。
方法详解¶
整体框架¶
LANTERN的流程:(1) 调查响应\(x_s\)和外部特征\(x_e\)分别通过独立编码器\(f_s\), \(f_e\)生成嵌入\(h_s, h_e \in \mathbb{R}^{N \times D}\);(2) 交叉注意力层以\(h_s\)为query、\(h_e\)为key/value生成上下文化嵌入\(h_t\);(3) 门控残差融合\(h_{fused} = h_s + g \odot (h_t - h_s)\)保持调查主导地位;(4) 加入高斯噪声正则化后,通过前馈层+sigmoid输出每个响应键的预测概率\(\hat{y} \in [0,1]^{N \times d}\)。
关键设计¶
-
后期融合交叉注意力
- 功能:让调查信号"主动查询"外部信号中的相关信息,而非被动混合
- 核心思路:\(h_t = \text{Encoder}(Q=h_s, K=h_e, V=h_e)\)。使用Transformer编码器结构(8头注意力),调查嵌入决定"需要从外部信号中检索什么",避免学习所有可能的交互
- 设计动机:与早期融合(直接拼接特征)或中间融合相比,后期融合让调查模块在融合前已形成完整的表示,外部信息仅作为补充而非替代
-
选择性门控+残差连接机制
- 功能:控制外部信息的融入程度,保持调查信号的绝对主导地位
- 核心思路:\(h_{fused} = h_s + g \odot (h_t - h_s)\),其中\(g \in (0,1)\)是可学习门控。当\(g \to 0\)时完全忽略外部信息,退化到纯调查模型;当\(g \to 1\)时完全采纳交叉注意力输出。加入高斯噪声\(G\)作为正则化防止过拟合
- 设计动机:三层防护(后期融合+门控+残差)共同确保调查信号不会被覆盖。如果外部数据不相关或有噪声,模型可以通过学习低\(g\)值自动忽略它
-
模块化编码器设计
- 功能:支持独立地改进、替换或扩展各数据源的编码器
- 核心思路:调查编码器\(f_s\)和外部编码器\(f_e\)完全解耦,可独立版本化和部署。新数据模态通过增加编码器即可接入。整体约50M参数
- 设计动机:工业场景中数据源不断变化,模块化使得新数据源接入无需重训整个模型。当外部数据延迟或缺失时,系统自动降级为纯调查模式
损失函数 / 训练策略¶
使用Binary Cross Entropy (BCE)损失处理多标签预测。每个响应键(可能的答案选项)被视为独立的二分类问题。使用掩码\(m \in \{-1, 0, 1\}^{N \times d}\)提取自适应调查中实际呈现给用户的问题的标签:\(L = \text{BCE}(m \odot \hat{y})\)。交叉注意力使用8头,残差融合包含Dropout和LayerNorm。使用TensorFlow实现。
实验关键数据¶
消融实验(核心)¶
| 配置 | Precision | Recall | F1 |
|---|---|---|---|
| Survey-only | 0.7976 | 0.6794 | 0.7338 |
| External-only | 0.7537 | 0.4264 | 0.5447 |
| LANTERN | 0.8263 | 0.7296 | 0.7750 |
稀有vs频繁属性分析¶
| 配置 | 稀有-Precision | 稀有-Recall | 稀有-F1 | 频繁-Precision | 频繁-Recall | 频繁-F1 |
|---|---|---|---|---|---|---|
| Survey | 0.8755 | 0.8161 | 0.8448 | 0.7865 | 0.6165 | 0.6912 |
| External | 0.7776 | 0.5932 | 0.6730 | 0.7931 | 0.6029 | 0.6850 |
| LANTERN | 0.8751 | 0.8404 | 0.8575 | 0.7901 | 0.6484 | 0.7123 |
阈值敏感性分析¶
| 阈值 | Precision | Recall | F1 |
|---|---|---|---|
| 0.3 | 较低 | 最高 | ~0.74 |
| 0.5 | 中等 | 中等 | ~0.775 |
| 0.7 | 最高 | 较低 | ~0.75 |
关键发现¶
- LANTERN的F1=0.7750相比Survey-only的0.7338提升了5.6%,主要来自Recall从0.6794到0.7296的提升(+7.4%)——外部数据帮助恢复了调查未直接覆盖的行为信号
- External-only的F1仅0.5447,远低于Survey-only,验证了"调查数据是主信号"的设计哲学
- 在稀有属性上LANTERN的改善更显著(F1从0.8448到0.8575),因为调查对条件性/稀少问题的覆盖不足,外部数据正好弥补了这一缺口
- 在频繁属性上LANTERN也有改善(F1从0.6912到0.7123),说明外部数据在噪声较多的高频场景中也能提供互补信息
- F1曲线在不同阈值下相对平坦(~0.74-0.78),说明模型输出的概率校准良好
- 50M参数的轻量设计使模型可直接部署到生产环境进行实时推理
亮点与洞察¶
- "调查主导+补充辅助"的设计哲学具有广泛适用性:这种"高保真主信号+大规模噪声辅助信号"的融合范式可推广到任何主信号质量高但覆盖不足的场景,如医学诊断(专家评分+电子病历)、教育评估(考试成绩+在线行为)
- 三层防护机制的工程智慧:后期融合、选择性门控、残差连接三层保护共同确保了系统的鲁棒性——即使外部数据完全缺失或噪声巨大,系统也能优雅降级到纯调查基线
- 稀有属性上的更大改善:这是LANTERN最有说服力的结论——外部数据最大价值在于弥补调查的盲区(条件性问题覆盖不到的用户属性),而非在已有充分调查数据的属性上锦上添花
局限与展望¶
- 仅在单一调查数据集(~35,000用户)上验证,数据集规模和多样性有限,缺乏跨领域验证
- 未与LLM-based用户建模方法(如使用LLM理解用户行为描述)进行对比
- 多标签预测的类别不平衡处理未深入讨论,仅通过阈值分析间接触及
- 调查编码器和外部编码器的具体架构细节(层数、维度等)未充分描述
- 门控值\(g\)的分布分析缺失——\(g\)在不同属性上学到什么值?哪些外部信号被门控关闭?
- 缺少可解释性分析——交叉注意力权重是否可以揭示哪些外部特征对哪些调查预测有帮助?
- 高斯噪声正则化的幅度选择未讨论
相关工作与启发¶
- DMT/ZEUS (Gu et al., 2020/2021): 两阶段用户建模,通过拼接不同行为类型的顺序嵌入;LANTERN的后期融合策略比简单拼接更精细
- MMoE (Ma et al., 2018): 多门控混合专家框架用于任务特定路由,在推荐/广告场景表现强;LANTERN的门控思想与之相关但专注于模态而非任务
- ViLBERT (Lu et al., 2019): 双流架构+共注意力融合视觉和文本,启发了LANTERN的交叉注意力设计
- Multimodal Transformer (Tsai et al., 2019): 不需要时序对齐的跨模态注意力——LANTERN借鉴了其融合策略但应用在表格数据场景
- 启发:在工业界以表格数据为主的场景中,简单有效的融合策略(后期融合+门控+残差)往往比复杂的多模态架构更实用
评分¶
- 新颖性: ⭐⭐⭐(后期融合、门控、交叉注意力都是已有组件,创新在于面向调查场景的有针对性组合)
- 实验充分度: ⭐⭐⭐(消融完整、稀有/频繁分析有洞察力,但单一数据集且缺少与更多基线的对比)
- 写作质量: ⭐⭐⭐⭐(动机阐述清晰,设计哲学贯穿始终,工业部署考量务实)
- 价值: ⭐⭐⭐(提供了实用的工业蓝图,但学术贡献的深度和广度有限)
相关论文¶
- [ICML 2025] SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior
- [ICML 2025] On the Power of Context-Enhanced Learning in LLMs
- [ICML 2025] Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective
- [NeurIPS 2025] AdaptGrad: Adaptive Sampling to Reduce Noise
- [NeurIPS 2025] CBMAS: Cognitive Behavioral Modeling via Activation Steering