Competition-Aware CPC Forecasting with Near-Market Coverage¶

会议: CVPR 2025
arXiv: 2603.13059
代码: 待确认
领域: 时间序列 / 广告预测 / 图神经网络
关键词: CPC预测, 竞争代理, 语义图, 时间序列Foundation Model, 时空GNN

一句话总结¶

将付费搜索CPC预测重构为"部分可观测竞争下的预测"问题，通过语义邻域（Transformer嵌入）、行为邻域（DTW对齐）和地理意图三类竞争代理逼近不可观测的竞争状态，在1811个关键词×127周的Google Ads数据上显示竞争感知增强在中长期预测（6/12周）上显著优于单变量和弱上下文baseline。

研究背景与动机¶

领域现状：付费搜索广告中，CPC是实时拍卖生成的价格，由竞争对手出价、平台质量信号、查询条件共同决定。广告主能观测到自己的CPC、点击、展示量，但无法直接观测竞争对手的出价、预算约束和质量分数。
现有痛点：(a) 纯自回归预测方法在中长期（6-12周）表现差，因为竞争机制变化（对手预算调整、需求转移）无法从历史CPC中捕捉。(b) 搜索广告研究主要关注拍卖机制和点击率预测，对CPC预测的指导有限。(c) 图神经网络在交通/能源等领域成功，但CPC预测缺乏自然的图拓扑——关键词之间的竞争关系需要构建。
核心矛盾：CPC是竞争生成的价格，但竞争状态部分不可观测。广告主只能看到"结果"（CPC），看不到"原因"（竞争格局）。
本文要解决什么？
如何从可观测数据中构建竞争代理（proxy）逼近不可观测的竞争状态？
这些代理应该作为协变量还是关系先验（图结构）更有效？
时间序列Foundation Model（Chronos-2, TimeGPT, Moirai）能否吸收竞争信息？
切入角度：竞争在三个维度留下可观测痕迹——语义相似性（意图替代）、CPC轨迹同步（共同暴露于需求冲击）、地理意图（空间化市场结构）。
核心idea一句话：用语义/行为/地理三类代理逼近潜在竞争，通过协变量+图两条路线注入预测模型，在中长期预测上获得稳定提升。

方法详解¶

整体框架¶

两条路线评估竞争代理：(1) 协变量路线——竞争信号作为外生变量输入TSFM；(2) 关系路线——语义图作为邻接矩阵输入时空GNN。目标：1811个关键词的周级CPC，预测horizon \(h \in \{1, 6, 12\}\)周。

关键设计¶

语义邻域与语义图
做什么：用Transformer嵌入捕捉意图级别的关键词相似性
核心思路：用all-MiniLM-L6-v2编码每个关键词得到\(e_i \in \mathbb{R}^{384}\)向量，通过cosine相似度构建固定语义图\(A^{sem}\)（k=10近邻），行归一化后供STGNN使用。同时提取邻域聚合特征作为协变量
设计动机："car rental lax"和"rent a car los angeles"词面不同但竞争同一广告库存，语义嵌入能捕捉这种意图级替代性
行为邻域（DTW对齐）
做什么：通过CPC时间序列的动态时间规整找到行为相似的关键词
核心思路：计算关键词对的DTW距离（带Sakoe-Chiba带约束），构建行为邻域。从邻域历史CPC中提取无泄漏的竞争特征作为协变量
设计动机：词面不相似的关键词可能因暴露于相同需求冲击/竞争调整而表现出相似CPC动态，DTW能捕捉这种时间对齐的行为相似性
地理意图协变量
做什么：从关键词文本中提取地理信息作为空间竞争代理
核心思路：解析关键词中的地名（机场、城市、国家），通过层级地理映射（洲→国→城市）生成结构化位置指标
设计动机：租车市场需求高度本地化（机场hub竞争最激烈），地理编码直接反映本地化竞争强度
模型架构矩阵
经典/ML baseline：SARIMAX、XGBoost、LightGBM、LSTM、GRU、TabPFN
协变量增强TSFM：Chronos-2、TimeGPT、Moirai（接受外生协变量输入）
时空GNN：DCRNN、GConvLSTM、GraphWaveNet（消费语义图\(A^{sem}\)）

损失函数 / 训练策略¶

STGNN全部用MAE优化（对右偏CPC分布更鲁棒）
严格时序Split，最后20%观测用于测试，防止时间泄漏
评估指标：sMAPE（主）+ RMSE（辅）

实验关键数据¶

主实验（跨horizon家族级对比）¶

模型家族	1周 sMAPE(%)	6周 sMAPE(%)	12周 sMAPE(%)
最佳Classical/ML baseline	30.42	35.04	40.23
最佳协变量增强TSFM	27.94	27.14	29.14
最佳时空GNN	25.82	30.42	37.46

6周horizon详细对比¶

模型	sMAPE(%)	RMSE
SARIMAX	43.93±23.55	1.660
XGBoost	36.64±17.51	1.301
TabPFN (1-shot)	35.04±17.77	1.250
Moirai	30.14±18.24	1.000
TimeGPT	29.29±17.07	1.002
Chronos-2 + 地理协变量	27.14±15.04	0.841
GraphWaveNet + 语义图	30.57±20.57	1.005

关键发现¶

最优方法随horizon变化：1周STGNN最好（捕捉即时动态），6/12周TSFM最好（吸收竞争协变量处理regime shift）
竞争增强在中长期最有价值：短期惯性主导，长期竞争变化才真正影响预测
地理意图是最强的单一协变量：Chronos-2 + 地理意图在6周horizon上sMAPE从baseline 35.04降到27.14（降低23%）
高CPC高波动关键词上增益最大：竞争前沿（competitive frontier）上的关键词获益最多——这恰好是预算风险最高的区域
Foundation Model能有效吸收竞争信号：Chronos-2和TimeGPT通过协变量路线效果好于图路线

亮点与洞察¶

部分可观测竞争的问题重构：将CPC预测从纯时间序列问题重构为"部分可观测竞争下的预测"，这个框架化很有启发性——适用于任何拍卖/市场驱动的价格预测
三类互补代理设计：语义（意图替代）、行为（动态同步）、地理（本地化竞争）各捕捉竞争的不同facet，且构建方式不依赖竞争对手数据
Competitive Frontier评估：按关键词CPC均值和波动率分象限，聚焦高价值高风险区域评估模型——比简单平均误差更有商业意义
TSFM vs GNN的互补性：短期图传播好，长期协变量增强好——暗示两者可以混合

局限性 / 可改进方向¶

仅租车行业单一广告主数据：结论的外部有效性需在其他行业验证
语义图是静态的：实际竞争结构随时间演变，动态图可能更好
未考虑广告主自身出价策略的影响：CPC既受竞争影响也受自身出价影响
改进思路：(1) 构建动态竞争图（按周更新DTW邻域）；(2) 将TSFM协变量路线和GNN图路线融合为统一模型；(3) 扩展到多广告主竞争博弈模型

评分¶

新颖性: ⭐⭐⭐⭐ 问题重构（部分可观测竞争）和三类代理设计有新意，但模型架构本身不新
实验充分度: ⭐⭐⭐⭐⭐ 3个horizon×多模型家族×多代理组合，评估极其全面
写作质量: ⭐⭐⭐⭐ 问题定义和框架化出色，competitive frontier概念有商业洞察
价值: ⭐⭐⭐⭐ 对广告技术/数字营销领域有直接应用价值