跳转至

Self-Consistency for LLM-Based Motion Trajectory Generation and Verification

会议: CVPR2026
arXiv: 2603.29301
代码: majiaju.io/trajectory-self-consistency
领域: 多模态VLM
关键词: 自一致性, 运动轨迹, 几何变换群, 形状族, 无监督验证

一句话总结

将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族,通过在变换不变距离度量下聚类 LLM 采样的多条轨迹,实现无监督的轨迹生成改进(+4-6%)和验证(精度+11.8%),无需训练。

研究背景与动机

自一致性(self-consistency)是 LLM 推理领域的有效技术:多次采样 → 找最一致答案。在数学推理等文本域中,一致性检查很简单(直接比较数值是否相同)。但 LLM 也被广泛用于生成视觉输出(SVG、3D 场景、动画等),如何将自一致性扩展到视觉域?

核心挑战:视觉域中两个输出几乎不可能像素级匹配。更深层的原因是提示的欠规约性——"move the circle in a logarithmic spiral path"描述的不是单一轨迹,而是一个形状族(包含不同位置、大小、朝向的所有对数螺旋线)。因此需要定义何时两条轨迹应被视为"一致的"。

核心 idea:将形状族建模为原型轨迹+几何变换群(刚体、相似、仿射等),两条轨迹在变换群允许的变换下可相互转化则视为一致。利用变换群的层次结构自动恢复形状族。

方法详解

整体框架

给定描述期望轨迹的 prompt → (1) 用 LLM 采样 \(N\) 条多样轨迹 → (2) 在 Lie 变换群层次中,对每种变换群用不变距离度量聚类 → (3) 通过决策准则选择最合适的变换群 → (4) 选最大簇的质心作为自一致性生成,或检查新轨迹是否属于此形状族进行验证。

关键设计

  1. 形状族与 Lie 变换群层次:定义形状族 \(\mathcal{F}(o, W) = \{w(o) | w \in W\}\)(原型轨迹 \(o\) + 变换群 \(W\))。构建变换群层次:刚体 SE(2) ⊂ 刚体+反射 E(2) ⊂ 相似 Sim⁺(2) ⊂ 相似+反射 Sim(2) ⊂ 仿射 Aff(2),以及各向异性相似等。每个群有对应的不变距离度量 \(d_W(t_1, t_2) = \min_{w \in W} \frac{1}{n}\sum_i \|w(t_{1,i}) - t_{2,i}\|^2\),通过广义 ICP 算法求解。

  2. 两种无监督决策准则选择变换群 \(W\)

    • Majority-Consensus:从最严格的变换群向上遍历层次结构,选第一个让最大簇>50% 的群。偏向保守(更严格的群),精度高但召回低
    • Hierarchical-Consistency:从最宽松的群向下遍历,选最严格的、但不会让最大簇丢失成员的群。更好地平衡精度和召回
  3. 多样性采样策略:不重复独立采样,而是要求 LLM 一次生成 \(k\) 条轨迹并覆盖分布的"尾部",以批次方式采样直至 \(N\) 条。

  4. 验证:恢复形状族 \(\mathcal{F}(o, W)\) 后,检查查询轨迹 \(t\) 到原型 \(o\)\(d_W\) 下的距离是否 \(< \tau\) 来判断是否匹配 prompt。

损失函数 / 训练策略

  • 完全无监督、训练免,仅需 LLM API 访问
  • 超参:\(N=19\) 条采样,\(n=100\) 点重采样,\(\tau\) 为聚类阈值(对其不敏感,32× 范围内 F1 仅变化 7.2%)
  • 单次距离计算平均 67ms(CPU)

实验关键数据

轨迹生成准确率

方法 决策准则 GPT-4.1 GPT-5
LLM-Direct - 62.1% 79.1%
Ours Majority-Consensus 68.0% 83.3%
Ours Hierarchical-Consistency 66.7% 82.6%
Ours Oracle(已知正确 W) 68.5% 83.5%

轨迹验证

方法 Precision Recall F1
GPT-4.1 (VLM) 62.0 96.9 75.6
GPT-5 (VLM) 74.0 84.7 79.0
Ours (Majority-Consensus) 85.8 66.1 74.6
Ours (Hierarchical-Consistency) 80.5 89.0 84.6
Ours (Oracle) 87.9 83.3 85.6

消融实验

配置 关键指标 说明
\(N=10\) 条采样 F1 接近饱和 10 条即可提供充分信号
\(\tau\) 扫描 0.25-8.0 F1 仅变化 7.2% 对阈值不敏感
多原型改进 F1: 71.0→88.9 允许返回多个大簇处理歧义 prompt

关键发现

  • 无监督 Majority-Consensus 接近 Oracle 上界(68.0 vs 68.5, GPT-4.1)
  • GPT-4.1 作为 VLM 验证器严重偏向"True"(预测正例率 90%,真实基础率 50%),精度仅 62%
  • 自一致性验证精度比 VLM 基线高 11.8%(85.8 vs 74.0)
  • Majority-Consensus 选错时 95.6% 选了过度严格的群;Hierarchical-Consistency 选错时 80.6% 选了过度宽松的群——二者互补
  • \(N \geq 10\) 后性能稳定,无需大量采样

亮点与洞察

  • 将自一致性从离散域推广到连续几何域:用变换群定义"一致性"替代简单的身份匹配,是概念层面的重要推广
  • Lie 群层次结构的巧妙利用:不同形状族需要不同变换群,层次结构提供了无监督自动选择的框架
  • 验证 > 生成的独特发现:自一致性方法在验证任务上的优势比生成更大,因为形状族恢复后的成员检查本质上是一个良定义的几何问题
  • 为 LLM 视觉生成的自动评估/验证提供了不依赖 VLM 的替代路径

局限与展望

  • 仅处理可用单一原型+变换群描述的形状族,对歧义描述(如"curved path")不适用
  • 多原型情况(如七角星 {7/2} 和 {7/3})需要特殊处理
  • 基于 ICP 的距离计算对噪声和离散化误差有一定敏感性
  • 仅验证轨迹的几何形状,不涵盖动画的其他属性(速度、时序等)

相关工作与启发

  • vs 原始 Self-Consistency:原始方法仅支持离散身份匹配(数值相等),本文将一致性推广到连续几何域的变换不变距离
  • vs MoVer:MoVer 用一阶逻辑 DSL 验证动画的低级属性,但无法表达几何形状族
  • 启发:这种通过定义域特定的"等价类"来扩展自一致性的思路可推广到 3D 生成、音乐等其他视觉/创意域

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将自一致性从文本推广到视觉域的概念创新极高,Lie 群层次和决策准则设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 224 条 prompt + 2240 条验证轨迹的合成基准,两种 LLM、多种决策准则对比完整,但限于合成数据
  • 写作质量: ⭐⭐⭐⭐⭐ 数学定义精确,直觉解释清晰,图示优秀
  • 价值: ⭐⭐⭐⭐ 为 LLM 视觉生成的自动验证开辟了新范式,但应用场景(运动图形轨迹)偏窄

相关论文