Self-Consistency for LLM-Based Motion Trajectory Generation and Verification¶
会议: CVPR2026
arXiv: 2603.29301
代码: majiaju.io/trajectory-self-consistency
领域: 多模态VLM
关键词: 自一致性, 运动轨迹, 几何变换群, 形状族, 无监督验证
一句话总结¶
将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族,通过在变换不变距离度量下聚类 LLM 采样的多条轨迹,实现无监督的轨迹生成改进(+4-6%)和验证(精度+11.8%),无需训练。
研究背景与动机¶
自一致性(self-consistency)是 LLM 推理领域的有效技术:多次采样 → 找最一致答案。在数学推理等文本域中,一致性检查很简单(直接比较数值是否相同)。但 LLM 也被广泛用于生成视觉输出(SVG、3D 场景、动画等),如何将自一致性扩展到视觉域?
核心挑战:视觉域中两个输出几乎不可能像素级匹配。更深层的原因是提示的欠规约性——"move the circle in a logarithmic spiral path"描述的不是单一轨迹,而是一个形状族(包含不同位置、大小、朝向的所有对数螺旋线)。因此需要定义何时两条轨迹应被视为"一致的"。
核心 idea:将形状族建模为原型轨迹+几何变换群(刚体、相似、仿射等),两条轨迹在变换群允许的变换下可相互转化则视为一致。利用变换群的层次结构自动恢复形状族。
方法详解¶
整体框架¶
给定描述期望轨迹的 prompt → (1) 用 LLM 采样 \(N\) 条多样轨迹 → (2) 在 Lie 变换群层次中,对每种变换群用不变距离度量聚类 → (3) 通过决策准则选择最合适的变换群 → (4) 选最大簇的质心作为自一致性生成,或检查新轨迹是否属于此形状族进行验证。
关键设计¶
-
形状族与 Lie 变换群层次:定义形状族 \(\mathcal{F}(o, W) = \{w(o) | w \in W\}\)(原型轨迹 \(o\) + 变换群 \(W\))。构建变换群层次:刚体 SE(2) ⊂ 刚体+反射 E(2) ⊂ 相似 Sim⁺(2) ⊂ 相似+反射 Sim(2) ⊂ 仿射 Aff(2),以及各向异性相似等。每个群有对应的不变距离度量 \(d_W(t_1, t_2) = \min_{w \in W} \frac{1}{n}\sum_i \|w(t_{1,i}) - t_{2,i}\|^2\),通过广义 ICP 算法求解。
-
两种无监督决策准则选择变换群 \(W\):
- Majority-Consensus:从最严格的变换群向上遍历层次结构,选第一个让最大簇>50% 的群。偏向保守(更严格的群),精度高但召回低
- Hierarchical-Consistency:从最宽松的群向下遍历,选最严格的、但不会让最大簇丢失成员的群。更好地平衡精度和召回
-
多样性采样策略:不重复独立采样,而是要求 LLM 一次生成 \(k\) 条轨迹并覆盖分布的"尾部",以批次方式采样直至 \(N\) 条。
-
验证:恢复形状族 \(\mathcal{F}(o, W)\) 后,检查查询轨迹 \(t\) 到原型 \(o\) 在 \(d_W\) 下的距离是否 \(< \tau\) 来判断是否匹配 prompt。
损失函数 / 训练策略¶
- 完全无监督、训练免,仅需 LLM API 访问
- 超参:\(N=19\) 条采样,\(n=100\) 点重采样,\(\tau\) 为聚类阈值(对其不敏感,32× 范围内 F1 仅变化 7.2%)
- 单次距离计算平均 67ms(CPU)
实验关键数据¶
轨迹生成准确率¶
| 方法 | 决策准则 | GPT-4.1 | GPT-5 |
|---|---|---|---|
| LLM-Direct | - | 62.1% | 79.1% |
| Ours | Majority-Consensus | 68.0% | 83.3% |
| Ours | Hierarchical-Consistency | 66.7% | 82.6% |
| Ours | Oracle(已知正确 W) | 68.5% | 83.5% |
轨迹验证¶
| 方法 | Precision | Recall | F1 |
|---|---|---|---|
| GPT-4.1 (VLM) | 62.0 | 96.9 | 75.6 |
| GPT-5 (VLM) | 74.0 | 84.7 | 79.0 |
| Ours (Majority-Consensus) | 85.8 | 66.1 | 74.6 |
| Ours (Hierarchical-Consistency) | 80.5 | 89.0 | 84.6 |
| Ours (Oracle) | 87.9 | 83.3 | 85.6 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| \(N=10\) 条采样 | F1 接近饱和 | 10 条即可提供充分信号 |
| \(\tau\) 扫描 0.25-8.0 | F1 仅变化 7.2% | 对阈值不敏感 |
| 多原型改进 | F1: 71.0→88.9 | 允许返回多个大簇处理歧义 prompt |
关键发现¶
- 无监督 Majority-Consensus 接近 Oracle 上界(68.0 vs 68.5, GPT-4.1)
- GPT-4.1 作为 VLM 验证器严重偏向"True"(预测正例率 90%,真实基础率 50%),精度仅 62%
- 自一致性验证精度比 VLM 基线高 11.8%(85.8 vs 74.0)
- Majority-Consensus 选错时 95.6% 选了过度严格的群;Hierarchical-Consistency 选错时 80.6% 选了过度宽松的群——二者互补
- \(N \geq 10\) 后性能稳定,无需大量采样
亮点与洞察¶
- 将自一致性从离散域推广到连续几何域:用变换群定义"一致性"替代简单的身份匹配,是概念层面的重要推广
- Lie 群层次结构的巧妙利用:不同形状族需要不同变换群,层次结构提供了无监督自动选择的框架
- 验证 > 生成的独特发现:自一致性方法在验证任务上的优势比生成更大,因为形状族恢复后的成员检查本质上是一个良定义的几何问题
- 为 LLM 视觉生成的自动评估/验证提供了不依赖 VLM 的替代路径
局限与展望¶
- 仅处理可用单一原型+变换群描述的形状族,对歧义描述(如"curved path")不适用
- 多原型情况(如七角星 {7/2} 和 {7/3})需要特殊处理
- 基于 ICP 的距离计算对噪声和离散化误差有一定敏感性
- 仅验证轨迹的几何形状,不涵盖动画的其他属性(速度、时序等)
相关工作与启发¶
- vs 原始 Self-Consistency:原始方法仅支持离散身份匹配(数值相等),本文将一致性推广到连续几何域的变换不变距离
- vs MoVer:MoVer 用一阶逻辑 DSL 验证动画的低级属性,但无法表达几何形状族
- 启发:这种通过定义域特定的"等价类"来扩展自一致性的思路可推广到 3D 生成、音乐等其他视觉/创意域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将自一致性从文本推广到视觉域的概念创新极高,Lie 群层次和决策准则设计优雅
- 实验充分度: ⭐⭐⭐⭐ 224 条 prompt + 2240 条验证轨迹的合成基准,两种 LLM、多种决策准则对比完整,但限于合成数据
- 写作质量: ⭐⭐⭐⭐⭐ 数学定义精确,直觉解释清晰,图示优秀
- 价值: ⭐⭐⭐⭐ 为 LLM 视觉生成的自动验证开辟了新范式,但应用场景(运动图形轨迹)偏窄
相关论文¶
- [ICCV 2025] GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
- [ACL 2026] Don't Act Blindly: Robust GUI Automation via Action-Effect Verification and Self-Correction
- [CVPR 2026] EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards
- [ACL 2025] Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation
- [NeurIPS 2025] Enhancing Outcome Reward-Based RL Training of MLLMs with Self-Consistency Sampling