Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching¶

会议: ICLR2026
arXiv: 2602.15752
代码: kishi6/ICLR2026_MRet
领域: ai_safety
关键词: two-sided matching, user retention, learning-to-rank, online dating, fairness

一句话总结¶

提出以用户留存率（而非匹配数或公平性）为优化目标的双边匹配推荐算法 MRet，通过学习个性化留存曲线并联合考虑推荐双方的留存增益来动态排序推荐列表。

背景与动机¶

双边匹配平台（如在线约会、招聘）的推荐算法通常以最大化匹配数为目标，但这导致匹配严重不均衡：热门用户获得大量匹配，冷门用户几乎没有，最终冷门用户流失离开平台
许多平台（特别是订阅制）高度依赖用户留存来维持收入，用户流失直接影响平台可持续性
现有方法用公平性（fairness of exposure）来缓解不均衡，但公平性本身不是平台的终极目标：用户不会因为"曝光被公平分配"就留下来
实际数据显示留存概率与匹配数之间存在非线性关系——前几次匹配对留存影响远大于后续增量匹配
核心洞察：公平性只是留存的一个不可靠代理目标，直接优化留存才是正确路线

核心问题¶

如何在双边匹配平台中直接优化用户留存率，而非间接依赖匹配最大化或公平性启发式方法？

方法详解¶

问题建模¶

两组用户 \(\mathcal{X}\) 和 \(\mathcal{Y}\)，每个时间步一个用户到达，系统从对面用户池中生成 \(K\) 个推荐
匹配概率 \(r(x,y) \in [0,1]\) 表示双方互相喜欢的概率
引入留存函数 \(f(x, m)\)：用户 \(x\) 在获得 \(m\) 次匹配后留在平台的概率

优化目标¶

联合最大化推荐接收方和被推荐方的留存概率增益：
接收方增益：推荐后留存概率的提升
被推荐方增益：每个被推荐用户因这次交互获得的留存概率提升
原始优化问题（Eq.9）是 NP-hard 的

MRet 排序算法¶

学习个性化留存曲线：用 XGBoost 对用户特征+匹配历史做回归，学习每个用户的留存函数 \(f\)
凹性假设：留存函数关于匹配数是凹的（边际递减），这与实际数据一致
可分解近似：利用 Jensen 不等式将 NP-hard 问题分解为逐项评分问题
评分公式：每个候选用户的得分 = 接收方留存增益项 + 被推荐方留存增益项
排序输出：按得分降序排列，复杂度从 NP-hard 降至 \(O(N \log N)\)

关键设计¶

双向考虑：推荐不仅让接收者"更可能留下"，也让被推荐者"更可能留下"
动态适应：随着用户累积匹配数变化，MRet 自然将稀缺匹配资源分配到留存增益最大的地方
理论支撑：在凹性假设下，MRet 最大化原目标的一个下界

实验关键数据¶

合成实验¶

设置：1000+1000 用户，K=5 推荐位，2000 时间步，popularity skew κ=0.5
MRet 的用户留存率显著高于所有基线（Max Match / FairCo / Uniform）
Max Match 虽然总匹配数最高，但留存率与随机推荐（Uniform）几乎相同——说明"多匹配≠高留存"
MRet 只用了 Max Match 约 70% 的匹配数，却获得了更高的留存率
FairCo 失败原因分析：按公平性分配匹配，导致许多用户获得的匹配与其"满意匹配数"偏差大
人气偏斜实验 (κ 变化)：MRet 在各种偏斜程度下都保持高留存，FairCo 在高偏斜时退化到与 Uniform 相当
匹配分布分析：MRet 将匹配精准分配到每个用户的"满意线"附近，而 FairCo 的分配呈正态分布、偏差大

真实数据实验¶

数据源：日本大型在线约会平台，百万级注册用户
构建 1000×1000 匹配矩阵，用 ALS 填充缺失值
留存定义：2025年2月登录的用户是否在3月继续登录
用 k-means 将用户分为 5 个聚类，每个聚类共享留存曲线
真实数据极度稀疏（大部分匹配概率为 0），FairCo 和 Uniform 在此条件下严重失效
MRet 在真实稀疏匹配数据下仍然取得最高留存率
即使留存函数不满足凹性假设，MRet 依然有效——鲁棒性强

亮点¶

问题定义新颖：首次将双边匹配平台的优化目标从"匹配最大化/公平性"转向"用户留存最大化"
理论+实践结合：NP-hard 问题的理论近似 + 真实约会平台数据验证
洞察深刻：用数据证明"匹配数≠留存"、"公平≠留存"，打破了常见假设
双向考虑：同时优化推荐接收方和被推荐方的留存，而非仅关注单方

局限性 / 可改进方向¶

留存函数的凹性假设虽然在实验中被验证是鲁棒的，但理论保证依赖该假设
匹配概率 \(r(x,y)\) 假设已知或可由上游模型估计，未讨论估计误差的影响
留存函数用 XGBoost 学习，模型容量和泛化性可进一步探索（如用神经网络替代）
仅在约会平台场景验证，招聘等其他双边匹配场景的适用性待考察
未考虑用户组间的动态变化（如新用户加入、用户偏好随时间漂移）
实验中用户规模为 1000+1000，更大规模（百万级）下的可扩展性需要验证
留存标签定义为"下月是否登录"，较粗粒度，更细粒度的留存指标可能带来不同结论

与相关工作的对比¶

方法	优化目标	是否考虑留存	复杂度
Max Match	最大化匹配数	否	低
FairCo	公平曝光	否（间接）	低
Tomita & Yokoyama 2024	双随机矩阵公平	否	指数级
MRet	用户留存最大化	是（直接）	\(O(N \log N)\)

启发与关联¶

该工作的核心思想——"代理目标（公平性）不等于真实目标（留存）"——具有普遍意义，值得在其他推荐系统场景中借鉴
留存函数的设计可与强化学习中的奖励塑形（reward shaping）对比
双向留存优化的思路可扩展到更一般的多利益相关者推荐场景
Figure 1 展示了真实约会平台数据中匹配数与留存率的关系，是理解论文动机的关键图
与长期用户参与度优化（如 Zou et al. 2019, McDonald et al. 2023）相关，但本文首次在双边匹配中直接建模留存

评分¶

新颖性: ★★★★☆ — 问题定义新颖，从公平性到留存的范式转变
实验充分度: ★★★★☆ — 合成+真实数据，多种消融实验
写作质量: ★★★★☆ — 论述清晰，动机和方法阐述逻辑性强
价值: ★★★★☆ — 对双边匹配平台的实际运营有直接指导意义
综合: ★★★★☆ — 问题定义和方法均有贡献，真实场景验证加分