Competition-Aware CPC Forecasting with Near-Market Coverage¶
会议: CVPR 2025
arXiv: 2603.13059
代码: 待确认
领域: 时间序列 / 广告预测 / 图神经网络
关键词: CPC预测, 竞争代理, 语义图, 时间序列Foundation Model, 时空GNN
一句话总结¶
将付费搜索CPC预测重构为"部分可观测竞争下的预测"问题,通过语义邻域(Transformer嵌入)、行为邻域(DTW对齐)和地理意图三类竞争代理逼近不可观测的竞争状态,在1811个关键词×127周的Google Ads数据上显示竞争感知增强在中长期预测(6/12周)上显著优于单变量和弱上下文baseline。
研究背景与动机¶
-
领域现状:付费搜索广告中,CPC是实时拍卖生成的价格,由竞争对手出价、平台质量信号、查询条件共同决定。广告主能观测到自己的CPC、点击、展示量,但无法直接观测竞争对手的出价、预算约束和质量分数。
-
现有痛点:(a) 纯自回归预测方法在中长期(6-12周)表现差,因为竞争机制变化(对手预算调整、需求转移)无法从历史CPC中捕捉。(b) 搜索广告研究主要关注拍卖机制和点击率预测,对CPC预测的指导有限。(c) 图神经网络在交通/能源等领域成功,但CPC预测缺乏自然的图拓扑——关键词之间的竞争关系需要构建。
-
核心矛盾:CPC是竞争生成的价格,但竞争状态部分不可观测。广告主只能看到"结果"(CPC),看不到"原因"(竞争格局)。
-
本文要解决什么?
- 如何从可观测数据中构建竞争代理(proxy)逼近不可观测的竞争状态?
- 这些代理应该作为协变量还是关系先验(图结构)更有效?
-
时间序列Foundation Model(Chronos-2, TimeGPT, Moirai)能否吸收竞争信息?
-
切入角度:竞争在三个维度留下可观测痕迹——语义相似性(意图替代)、CPC轨迹同步(共同暴露于需求冲击)、地理意图(空间化市场结构)。
-
核心idea一句话:用语义/行为/地理三类代理逼近潜在竞争,通过协变量+图两条路线注入预测模型,在中长期预测上获得稳定提升。
方法详解¶
整体框架¶
两条路线评估竞争代理:(1) 协变量路线——竞争信号作为外生变量输入TSFM;(2) 关系路线——语义图作为邻接矩阵输入时空GNN。目标:1811个关键词的周级CPC,预测horizon \(h \in \{1, 6, 12\}\)周。
关键设计¶
- 语义邻域与语义图
- 做什么:用Transformer嵌入捕捉意图级别的关键词相似性
- 核心思路:用all-MiniLM-L6-v2编码每个关键词得到\(e_i \in \mathbb{R}^{384}\)向量,通过cosine相似度构建固定语义图\(A^{sem}\)(k=10近邻),行归一化后供STGNN使用。同时提取邻域聚合特征作为协变量
-
设计动机:"car rental lax"和"rent a car los angeles"词面不同但竞争同一广告库存,语义嵌入能捕捉这种意图级替代性
-
行为邻域(DTW对齐)
- 做什么:通过CPC时间序列的动态时间规整找到行为相似的关键词
- 核心思路:计算关键词对的DTW距离(带Sakoe-Chiba带约束),构建行为邻域。从邻域历史CPC中提取无泄漏的竞争特征作为协变量
-
设计动机:词面不相似的关键词可能因暴露于相同需求冲击/竞争调整而表现出相似CPC动态,DTW能捕捉这种时间对齐的行为相似性
-
地理意图协变量
- 做什么:从关键词文本中提取地理信息作为空间竞争代理
- 核心思路:解析关键词中的地名(机场、城市、国家),通过层级地理映射(洲→国→城市)生成结构化位置指标
-
设计动机:租车市场需求高度本地化(机场hub竞争最激烈),地理编码直接反映本地化竞争强度
-
模型架构矩阵
- 经典/ML baseline:SARIMAX、XGBoost、LightGBM、LSTM、GRU、TabPFN
- 协变量增强TSFM:Chronos-2、TimeGPT、Moirai(接受外生协变量输入)
- 时空GNN:DCRNN、GConvLSTM、GraphWaveNet(消费语义图\(A^{sem}\))
损失函数 / 训练策略¶
- STGNN全部用MAE优化(对右偏CPC分布更鲁棒)
- 严格时序Split,最后20%观测用于测试,防止时间泄漏
- 评估指标:sMAPE(主)+ RMSE(辅)
实验关键数据¶
主实验(跨horizon家族级对比)¶
| 模型家族 | 1周 sMAPE(%) | 6周 sMAPE(%) | 12周 sMAPE(%) |
|---|---|---|---|
| 最佳Classical/ML baseline | 30.42 | 35.04 | 40.23 |
| 最佳协变量增强TSFM | 27.94 | 27.14 | 29.14 |
| 最佳时空GNN | 25.82 | 30.42 | 37.46 |
6周horizon详细对比¶
| 模型 | sMAPE(%) | RMSE |
|---|---|---|
| SARIMAX | 43.93±23.55 | 1.660 |
| XGBoost | 36.64±17.51 | 1.301 |
| TabPFN (1-shot) | 35.04±17.77 | 1.250 |
| Moirai | 30.14±18.24 | 1.000 |
| TimeGPT | 29.29±17.07 | 1.002 |
| Chronos-2 + 地理协变量 | 27.14±15.04 | 0.841 |
| GraphWaveNet + 语义图 | 30.57±20.57 | 1.005 |
关键发现¶
- 最优方法随horizon变化:1周STGNN最好(捕捉即时动态),6/12周TSFM最好(吸收竞争协变量处理regime shift)
- 竞争增强在中长期最有价值:短期惯性主导,长期竞争变化才真正影响预测
- 地理意图是最强的单一协变量:Chronos-2 + 地理意图在6周horizon上sMAPE从baseline 35.04降到27.14(降低23%)
- 高CPC高波动关键词上增益最大:竞争前沿(competitive frontier)上的关键词获益最多——这恰好是预算风险最高的区域
- Foundation Model能有效吸收竞争信号:Chronos-2和TimeGPT通过协变量路线效果好于图路线
亮点与洞察¶
- 部分可观测竞争的问题重构:将CPC预测从纯时间序列问题重构为"部分可观测竞争下的预测",这个框架化很有启发性——适用于任何拍卖/市场驱动的价格预测
- 三类互补代理设计:语义(意图替代)、行为(动态同步)、地理(本地化竞争)各捕捉竞争的不同facet,且构建方式不依赖竞争对手数据
- Competitive Frontier评估:按关键词CPC均值和波动率分象限,聚焦高价值高风险区域评估模型——比简单平均误差更有商业意义
- TSFM vs GNN的互补性:短期图传播好,长期协变量增强好——暗示两者可以混合
局限性 / 可改进方向¶
- 仅租车行业单一广告主数据:结论的外部有效性需在其他行业验证
- 语义图是静态的:实际竞争结构随时间演变,动态图可能更好
- 未考虑广告主自身出价策略的影响:CPC既受竞争影响也受自身出价影响
- 改进思路:(1) 构建动态竞争图(按周更新DTW邻域);(2) 将TSFM协变量路线和GNN图路线融合为统一模型;(3) 扩展到多广告主竞争博弈模型
相关工作与启发¶
- vs 纯ARIMA/Prophet baseline:本文sMAPE从43.93降到27.14(6周),证明竞争信号的关键价值
- vs 标准STGNN(交通预测):CPC预测的图需要"构建"而非"自然存在",语义图是一种有效的构建方式
- vs Foundation Model零样本预测:Chronos-2、TimeGPT在有竞争协变量时表现更好,说明Foundation Model仍受益于domain-specific信号
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题重构(部分可观测竞争)和三类代理设计有新意,但模型架构本身不新
- 实验充分度: ⭐⭐⭐⭐⭐ 3个horizon×多模型家族×多代理组合,评估极其全面
- 写作质量: ⭐⭐⭐⭐ 问题定义和框架化出色,competitive frontier概念有商业洞察
- 价值: ⭐⭐⭐⭐ 对广告技术/数字营销领域有直接应用价值