跳转至

Competition-Aware CPC Forecasting with Near-Market Coverage

会议: CVPR 2025
arXiv: 2603.13059
代码: 待确认
领域: 时间序列 / 广告预测 / 图神经网络
关键词: CPC预测, 竞争代理, 语义图, 时间序列Foundation Model, 时空GNN

一句话总结

将付费搜索CPC预测重构为"部分可观测竞争下的预测"问题,通过语义邻域(Transformer嵌入)、行为邻域(DTW对齐)和地理意图三类竞争代理逼近不可观测的竞争状态,在1811个关键词×127周的Google Ads数据上显示竞争感知增强在中长期预测(6/12周)上显著优于单变量和弱上下文baseline。

研究背景与动机

  1. 领域现状:付费搜索广告中,CPC是实时拍卖生成的价格,由竞争对手出价、平台质量信号、查询条件共同决定。广告主能观测到自己的CPC、点击、展示量,但无法直接观测竞争对手的出价、预算约束和质量分数。

  2. 现有痛点:(a) 纯自回归预测方法在中长期(6-12周)表现差,因为竞争机制变化(对手预算调整、需求转移)无法从历史CPC中捕捉。(b) 搜索广告研究主要关注拍卖机制和点击率预测,对CPC预测的指导有限。(c) 图神经网络在交通/能源等领域成功,但CPC预测缺乏自然的图拓扑——关键词之间的竞争关系需要构建。

  3. 核心矛盾:CPC是竞争生成的价格,但竞争状态部分不可观测。广告主只能看到"结果"(CPC),看不到"原因"(竞争格局)。

  4. 本文要解决什么?

  5. 如何从可观测数据中构建竞争代理(proxy)逼近不可观测的竞争状态?
  6. 这些代理应该作为协变量还是关系先验(图结构)更有效?
  7. 时间序列Foundation Model(Chronos-2, TimeGPT, Moirai)能否吸收竞争信息?

  8. 切入角度:竞争在三个维度留下可观测痕迹——语义相似性(意图替代)、CPC轨迹同步(共同暴露于需求冲击)、地理意图(空间化市场结构)。

  9. 核心idea一句话:用语义/行为/地理三类代理逼近潜在竞争,通过协变量+图两条路线注入预测模型,在中长期预测上获得稳定提升。

方法详解

整体框架

两条路线评估竞争代理:(1) 协变量路线——竞争信号作为外生变量输入TSFM;(2) 关系路线——语义图作为邻接矩阵输入时空GNN。目标:1811个关键词的周级CPC,预测horizon \(h \in \{1, 6, 12\}\)周。

关键设计

  1. 语义邻域与语义图
  2. 做什么:用Transformer嵌入捕捉意图级别的关键词相似性
  3. 核心思路:用all-MiniLM-L6-v2编码每个关键词得到\(e_i \in \mathbb{R}^{384}\)向量,通过cosine相似度构建固定语义图\(A^{sem}\)(k=10近邻),行归一化后供STGNN使用。同时提取邻域聚合特征作为协变量
  4. 设计动机:"car rental lax"和"rent a car los angeles"词面不同但竞争同一广告库存,语义嵌入能捕捉这种意图级替代性

  5. 行为邻域(DTW对齐)

  6. 做什么:通过CPC时间序列的动态时间规整找到行为相似的关键词
  7. 核心思路:计算关键词对的DTW距离(带Sakoe-Chiba带约束),构建行为邻域。从邻域历史CPC中提取无泄漏的竞争特征作为协变量
  8. 设计动机:词面不相似的关键词可能因暴露于相同需求冲击/竞争调整而表现出相似CPC动态,DTW能捕捉这种时间对齐的行为相似性

  9. 地理意图协变量

  10. 做什么:从关键词文本中提取地理信息作为空间竞争代理
  11. 核心思路:解析关键词中的地名(机场、城市、国家),通过层级地理映射(洲→国→城市)生成结构化位置指标
  12. 设计动机:租车市场需求高度本地化(机场hub竞争最激烈),地理编码直接反映本地化竞争强度

  13. 模型架构矩阵

  14. 经典/ML baseline:SARIMAX、XGBoost、LightGBM、LSTM、GRU、TabPFN
  15. 协变量增强TSFM:Chronos-2、TimeGPT、Moirai(接受外生协变量输入)
  16. 时空GNN:DCRNN、GConvLSTM、GraphWaveNet(消费语义图\(A^{sem}\)

损失函数 / 训练策略

  • STGNN全部用MAE优化(对右偏CPC分布更鲁棒)
  • 严格时序Split,最后20%观测用于测试,防止时间泄漏
  • 评估指标:sMAPE(主)+ RMSE(辅)

实验关键数据

主实验(跨horizon家族级对比)

模型家族 1周 sMAPE(%) 6周 sMAPE(%) 12周 sMAPE(%)
最佳Classical/ML baseline 30.42 35.04 40.23
最佳协变量增强TSFM 27.94 27.14 29.14
最佳时空GNN 25.82 30.42 37.46

6周horizon详细对比

模型 sMAPE(%) RMSE
SARIMAX 43.93±23.55 1.660
XGBoost 36.64±17.51 1.301
TabPFN (1-shot) 35.04±17.77 1.250
Moirai 30.14±18.24 1.000
TimeGPT 29.29±17.07 1.002
Chronos-2 + 地理协变量 27.14±15.04 0.841
GraphWaveNet + 语义图 30.57±20.57 1.005

关键发现

  • 最优方法随horizon变化:1周STGNN最好(捕捉即时动态),6/12周TSFM最好(吸收竞争协变量处理regime shift)
  • 竞争增强在中长期最有价值:短期惯性主导,长期竞争变化才真正影响预测
  • 地理意图是最强的单一协变量:Chronos-2 + 地理意图在6周horizon上sMAPE从baseline 35.04降到27.14(降低23%)
  • 高CPC高波动关键词上增益最大:竞争前沿(competitive frontier)上的关键词获益最多——这恰好是预算风险最高的区域
  • Foundation Model能有效吸收竞争信号:Chronos-2和TimeGPT通过协变量路线效果好于图路线

亮点与洞察

  • 部分可观测竞争的问题重构:将CPC预测从纯时间序列问题重构为"部分可观测竞争下的预测",这个框架化很有启发性——适用于任何拍卖/市场驱动的价格预测
  • 三类互补代理设计:语义(意图替代)、行为(动态同步)、地理(本地化竞争)各捕捉竞争的不同facet,且构建方式不依赖竞争对手数据
  • Competitive Frontier评估:按关键词CPC均值和波动率分象限,聚焦高价值高风险区域评估模型——比简单平均误差更有商业意义
  • TSFM vs GNN的互补性:短期图传播好,长期协变量增强好——暗示两者可以混合

局限性 / 可改进方向

  • 仅租车行业单一广告主数据:结论的外部有效性需在其他行业验证
  • 语义图是静态的:实际竞争结构随时间演变,动态图可能更好
  • 未考虑广告主自身出价策略的影响:CPC既受竞争影响也受自身出价影响
  • 改进思路:(1) 构建动态竞争图(按周更新DTW邻域);(2) 将TSFM协变量路线和GNN图路线融合为统一模型;(3) 扩展到多广告主竞争博弈模型

相关工作与启发

  • vs 纯ARIMA/Prophet baseline:本文sMAPE从43.93降到27.14(6周),证明竞争信号的关键价值
  • vs 标准STGNN(交通预测):CPC预测的图需要"构建"而非"自然存在",语义图是一种有效的构建方式
  • vs Foundation Model零样本预测:Chronos-2、TimeGPT在有竞争协变量时表现更好,说明Foundation Model仍受益于domain-specific信号

评分

  • 新颖性: ⭐⭐⭐⭐ 问题重构(部分可观测竞争)和三类代理设计有新意,但模型架构本身不新
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个horizon×多模型家族×多代理组合,评估极其全面
  • 写作质量: ⭐⭐⭐⭐ 问题定义和框架化出色,competitive frontier概念有商业洞察
  • 价值: ⭐⭐⭐⭐ 对广告技术/数字营销领域有直接应用价值