LANTERN: Modeling User Behavior from Adaptive Surveys with Supplemental Context¶

会议: ICML 2025
arXiv: 2507.20919
代码: 无
领域: 用户行为建模 / 推荐系统
关键词: 调查数据融合, 后期融合, 交叉注意力, 选择性门控, 多标签预测, 表格数据

一句话总结¶

提出LANTERN（Late-Attentive Network for Enriched Response Modeling），一个模块化的用户行为建模架构，将自适应调查数据作为主信号，通过交叉注意力实现后期融合，选择性门控和残差连接保持调查信号的主导地位，外部上下文（人口统计、行为日志等）仅在相关时被融入，在约35,000用户的生产级数据集上以F1=0.775显著超越纯调查基线的0.734。

研究背景与动机¶

领域现状: 理解用户行为是应用机器学习的基础挑战。调查是收集用户行为数据的经典方式，具有结构化、高保真、可解释性等优势。在营销、医疗、公共政策等领域，调查提供了关于用户偏好、决策和体验的纵向洞察。

现有痛点: 调查数据存在固有限制——用户疲劳导致回答不完整、问卷长度受限使覆盖面有限、条件性问题设计使某些属性的观测非常稀疏。补充性信号（人口统计、参与度指标、交易记录）虽然量大但噪声高且可能有偏，简单拼接会引入特征膨胀问题。

核心矛盾: 调查数据高保真但覆盖不足，外部数据覆盖广但噪声大。如何在融合两者时保持调查信号的主导地位，同时有选择地利用外部信号弥补调查的不足？

本文目标: 设计一个架构使调查数据保持中心地位，仅在外部信号有助于行为预测时选择性地融入，且模块化支持新数据源的灵活集成。

切入角度: 采用后期融合（late fusion）策略，用调查嵌入作为query查询外部嵌入——这意味着外部信息只在调查问"需要什么"时才被检索，而非不加区分地混合。

核心 idea: 用调查嵌入作为交叉注意力的query、外部数据嵌入作为key/value实现后期融合，加上选择性门控\(g\)和残差连接\(h_{fused} = h_s + g \odot (h_t - h_s)\)确保调查信号主导，构建"调查主导、补充辅助"的用户行为建模范式。

方法详解¶

整体框架¶

LANTERN的流程：(1) 调查响应\(x_s\)和外部特征\(x_e\)分别通过独立编码器\(f_s\), \(f_e\)生成嵌入\(h_s, h_e \in \mathbb{R}^{N \times D}\)；(2) 交叉注意力层以\(h_s\)为query、\(h_e\)为key/value生成上下文化嵌入\(h_t\)；(3) 门控残差融合\(h_{fused} = h_s + g \odot (h_t - h_s)\)保持调查主导地位；(4) 加入高斯噪声正则化后，通过前馈层+sigmoid输出每个响应键的预测概率\(\hat{y} \in [0,1]^{N \times d}\)。

关键设计¶

后期融合交叉注意力
- 功能：让调查信号"主动查询"外部信号中的相关信息，而非被动混合
- 核心思路：\(h_t = \text{Encoder}(Q=h_s, K=h_e, V=h_e)\)。使用Transformer编码器结构（8头注意力），调查嵌入决定"需要从外部信号中检索什么"，避免学习所有可能的交互
- 设计动机：与早期融合（直接拼接特征）或中间融合相比，后期融合让调查模块在融合前已形成完整的表示，外部信息仅作为补充而非替代
选择性门控+残差连接机制
- 功能：控制外部信息的融入程度，保持调查信号的绝对主导地位
- 核心思路：\(h_{fused} = h_s + g \odot (h_t - h_s)\)，其中\(g \in (0,1)\)是可学习门控。当\(g \to 0\)时完全忽略外部信息，退化到纯调查模型；当\(g \to 1\)时完全采纳交叉注意力输出。加入高斯噪声\(G\)作为正则化防止过拟合
- 设计动机：三层防护（后期融合+门控+残差）共同确保调查信号不会被覆盖。如果外部数据不相关或有噪声，模型可以通过学习低\(g\)值自动忽略它
模块化编码器设计
- 功能：支持独立地改进、替换或扩展各数据源的编码器
- 核心思路：调查编码器\(f_s\)和外部编码器\(f_e\)完全解耦，可独立版本化和部署。新数据模态通过增加编码器即可接入。整体约50M参数
- 设计动机：工业场景中数据源不断变化，模块化使得新数据源接入无需重训整个模型。当外部数据延迟或缺失时，系统自动降级为纯调查模式

损失函数 / 训练策略¶

使用Binary Cross Entropy (BCE)损失处理多标签预测。每个响应键（可能的答案选项）被视为独立的二分类问题。使用掩码\(m \in \{-1, 0, 1\}^{N \times d}\)提取自适应调查中实际呈现给用户的问题的标签：\(L = \text{BCE}(m \odot \hat{y})\)。交叉注意力使用8头，残差融合包含Dropout和LayerNorm。使用TensorFlow实现。

实验关键数据¶

消融实验（核心）¶

配置	Precision	Recall	F1
Survey-only	0.7976	0.6794	0.7338
External-only	0.7537	0.4264	0.5447
LANTERN	0.8263	0.7296	0.7750

稀有vs频繁属性分析¶

配置	稀有-Precision	稀有-Recall	稀有-F1	频繁-Precision	频繁-Recall	频繁-F1
Survey	0.8755	0.8161	0.8448	0.7865	0.6165	0.6912
External	0.7776	0.5932	0.6730	0.7931	0.6029	0.6850
LANTERN	0.8751	0.8404	0.8575	0.7901	0.6484	0.7123

阈值敏感性分析¶

阈值	Precision	Recall	F1
0.3	较低	最高	~0.74
0.5	中等	中等	~0.775
0.7	最高	较低	~0.75

关键发现¶

LANTERN的F1=0.7750相比Survey-only的0.7338提升了5.6%，主要来自Recall从0.6794到0.7296的提升（+7.4%）——外部数据帮助恢复了调查未直接覆盖的行为信号
External-only的F1仅0.5447，远低于Survey-only，验证了"调查数据是主信号"的设计哲学
在稀有属性上LANTERN的改善更显著（F1从0.8448到0.8575），因为调查对条件性/稀少问题的覆盖不足，外部数据正好弥补了这一缺口
在频繁属性上LANTERN也有改善（F1从0.6912到0.7123），说明外部数据在噪声较多的高频场景中也能提供互补信息
F1曲线在不同阈值下相对平坦（~0.74-0.78），说明模型输出的概率校准良好
50M参数的轻量设计使模型可直接部署到生产环境进行实时推理

亮点与洞察¶

"调查主导+补充辅助"的设计哲学具有广泛适用性：这种"高保真主信号+大规模噪声辅助信号"的融合范式可推广到任何主信号质量高但覆盖不足的场景，如医学诊断（专家评分+电子病历）、教育评估（考试成绩+在线行为）
三层防护机制的工程智慧：后期融合、选择性门控、残差连接三层保护共同确保了系统的鲁棒性——即使外部数据完全缺失或噪声巨大，系统也能优雅降级到纯调查基线
稀有属性上的更大改善：这是LANTERN最有说服力的结论——外部数据最大价值在于弥补调查的盲区（条件性问题覆盖不到的用户属性），而非在已有充分调查数据的属性上锦上添花

局限与展望¶

仅在单一调查数据集（~35,000用户）上验证，数据集规模和多样性有限，缺乏跨领域验证
未与LLM-based用户建模方法（如使用LLM理解用户行为描述）进行对比
多标签预测的类别不平衡处理未深入讨论，仅通过阈值分析间接触及
调查编码器和外部编码器的具体架构细节（层数、维度等）未充分描述
门控值\(g\)的分布分析缺失——\(g\)在不同属性上学到什么值？哪些外部信号被门控关闭？
缺少可解释性分析——交叉注意力权重是否可以揭示哪些外部特征对哪些调查预测有帮助？
高斯噪声正则化的幅度选择未讨论

评分¶

新颖性: ⭐⭐⭐（后期融合、门控、交叉注意力都是已有组件，创新在于面向调查场景的有针对性组合）
实验充分度: ⭐⭐⭐（消融完整、稀有/频繁分析有洞察力，但单一数据集且缺少与更多基线的对比）
写作质量: ⭐⭐⭐⭐（动机阐述清晰，设计哲学贯穿始终，工业部署考量务实）
价值: ⭐⭐⭐（提供了实用的工业蓝图，但学术贡献的深度和广度有限）