Self-Consistency for LLM-Based Motion Trajectory Generation and Verification¶

会议: CVPR2026
arXiv: 2603.29301
代码: majiaju.io/trajectory-self-consistency
领域: 多模态VLM
关键词: 自一致性, 运动轨迹, 几何变换群, 形状族, 无监督验证

一句话总结¶

将 LLM 的自一致性范式从自然语言推理扩展到视觉域——用 Lie 变换群层次结构定义运动轨迹的形状族，通过在变换不变距离度量下聚类 LLM 采样的多条轨迹，实现无监督的轨迹生成改进（+4-6%）和验证（精度+11.8%），无需训练。

研究背景与动机¶

自一致性（self-consistency）是 LLM 推理领域的有效技术：多次采样 → 找最一致答案。在数学推理等文本域中，一致性检查很简单（直接比较数值是否相同）。但 LLM 也被广泛用于生成视觉输出（SVG、3D 场景、动画等），如何将自一致性扩展到视觉域？

核心挑战：视觉域中两个输出几乎不可能像素级匹配。更深层的原因是提示的欠规约性——"move the circle in a logarithmic spiral path"描述的不是单一轨迹，而是一个形状族（包含不同位置、大小、朝向的所有对数螺旋线）。因此需要定义何时两条轨迹应被视为"一致的"。

核心 idea：将形状族建模为原型轨迹+几何变换群（刚体、相似、仿射等），两条轨迹在变换群允许的变换下可相互转化则视为一致。利用变换群的层次结构自动恢复形状族。

方法详解¶

整体框架¶

给定描述期望轨迹的 prompt → (1) 用 LLM 采样 \(N\) 条多样轨迹 → (2) 在 Lie 变换群层次中，对每种变换群用不变距离度量聚类 → (3) 通过决策准则选择最合适的变换群 → (4) 选最大簇的质心作为自一致性生成，或检查新轨迹是否属于此形状族进行验证。

关键设计¶

形状族与 Lie 变换群层次：定义形状族 \(\mathcal{F}(o, W) = \{w(o) | w \in W\}\)（原型轨迹 \(o\) + 变换群 \(W\)）。构建变换群层次：刚体 SE(2) ⊂ 刚体+反射 E(2) ⊂ 相似 Sim⁺(2) ⊂ 相似+反射 Sim(2) ⊂ 仿射 Aff(2)，以及各向异性相似等。每个群有对应的不变距离度量 \(d_W(t_1, t_2) = \min_{w \in W} \frac{1}{n}\sum_i \|w(t_{1,i}) - t_{2,i}\|^2\)，通过广义 ICP 算法求解。
两种无监督决策准则选择变换群 \(W\)：
- Majority-Consensus：从最严格的变换群向上遍历层次结构，选第一个让最大簇>50% 的群。偏向保守（更严格的群），精度高但召回低
- Hierarchical-Consistency：从最宽松的群向下遍历，选最严格的、但不会让最大簇丢失成员的群。更好地平衡精度和召回
多样性采样策略：不重复独立采样，而是要求 LLM 一次生成 \(k\) 条轨迹并覆盖分布的"尾部"，以批次方式采样直至 \(N\) 条。
验证：恢复形状族 \(\mathcal{F}(o, W)\) 后，检查查询轨迹 \(t\) 到原型 \(o\) 在 \(d_W\) 下的距离是否 \(< \tau\) 来判断是否匹配 prompt。

损失函数 / 训练策略¶

完全无监督、训练免，仅需 LLM API 访问
超参：\(N=19\) 条采样，\(n=100\) 点重采样，\(\tau\) 为聚类阈值（对其不敏感，32× 范围内 F1 仅变化 7.2%）
单次距离计算平均 67ms（CPU）

实验关键数据¶

轨迹生成准确率¶

方法	决策准则	GPT-4.1	GPT-5
LLM-Direct	-	62.1%	79.1%
Ours	Majority-Consensus	68.0%	83.3%
Ours	Hierarchical-Consistency	66.7%	82.6%
Ours	Oracle（已知正确 W）	68.5%	83.5%

轨迹验证¶

方法	Precision	Recall	F1
GPT-4.1 (VLM)	62.0	96.9	75.6
GPT-5 (VLM)	74.0	84.7	79.0
Ours (Majority-Consensus)	85.8	66.1	74.6
Ours (Hierarchical-Consistency)	80.5	89.0	84.6
Ours (Oracle)	87.9	83.3	85.6

消融实验¶

配置	关键指标	说明
\(N=10\) 条采样	F1 接近饱和	10 条即可提供充分信号
\(\tau\) 扫描 0.25-8.0	F1 仅变化 7.2%	对阈值不敏感
多原型改进	F1: 71.0→88.9	允许返回多个大簇处理歧义 prompt

关键发现¶

无监督 Majority-Consensus 接近 Oracle 上界（68.0 vs 68.5, GPT-4.1）
GPT-4.1 作为 VLM 验证器严重偏向"True"（预测正例率 90%，真实基础率 50%），精度仅 62%
自一致性验证精度比 VLM 基线高 11.8%（85.8 vs 74.0）
Majority-Consensus 选错时 95.6% 选了过度严格的群；Hierarchical-Consistency 选错时 80.6% 选了过度宽松的群——二者互补
\(N \geq 10\) 后性能稳定，无需大量采样

亮点与洞察¶

将自一致性从离散域推广到连续几何域：用变换群定义"一致性"替代简单的身份匹配，是概念层面的重要推广
Lie 群层次结构的巧妙利用：不同形状族需要不同变换群，层次结构提供了无监督自动选择的框架
验证 > 生成的独特发现：自一致性方法在验证任务上的优势比生成更大，因为形状族恢复后的成员检查本质上是一个良定义的几何问题
为 LLM 视觉生成的自动评估/验证提供了不依赖 VLM 的替代路径

局限与展望¶

仅处理可用单一原型+变换群描述的形状族，对歧义描述（如"curved path"）不适用
多原型情况（如七角星 {7/2} 和 {7/3}）需要特殊处理
基于 ICP 的距离计算对噪声和离散化误差有一定敏感性
仅验证轨迹的几何形状，不涵盖动画的其他属性（速度、时序等）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将自一致性从文本推广到视觉域的概念创新极高，Lie 群层次和决策准则设计优雅
实验充分度: ⭐⭐⭐⭐ 224 条 prompt + 2240 条验证轨迹的合成基准，两种 LLM、多种决策准则对比完整，但限于合成数据
写作质量: ⭐⭐⭐⭐⭐ 数学定义精确，直觉解释清晰，图示优秀
价值: ⭐⭐⭐⭐ 为 LLM 视觉生成的自动验证开辟了新范式，但应用场景（运动图形轨迹）偏窄