Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search¶

会议: AAAI 2026
arXiv: 2511.18929
代码: 无
领域: 机器人
关键词: 任务发现, 开放未来, 多智能体, 搜索树, 具身智能

一句话总结¶

本文提出并形式化了人类中心开放未来任务发现（HOTD）问题——在人类意图并发且动态变化的场景中，发现那些在多种可能未来中都能减少人类负担的任务。同时构建了 HOTD-Bench 基准（2K+ 真实视频），并提出 CMAST 框架（协作多智能体搜索树），通过多智能体系统和可扩展搜索树显著超越现有 LMM 方法。

研究背景与动机¶

从已知目标到开放未来¶

现有的自主技能获取（Autonomous Skill Acquisition）研究关注让机器人基于当前观察提出操作任务——但假设固定目标或封闭环境。然而真实的人类场景远比这复杂：

人们经常同时进行多个子过程（如做饭时可能穿插清洁）
意图动态变化，很少让所有步骤显式化
一个人做家务时，可能之后做饭、也可能休息——机器人应该提前做什么？

核心洞察：如果机器人做的"擦桌子"任务在所有可能的未来分支中都是有帮助的——无论人类之后做饭、清洁还是休息——那它就是好的任务发现。

HOTD 与传统任务发现的区别¶

维度	传统任务发现	HOTD
目标	找到达到已知结果的下一步	在不确定的多种未来中识别普遍有帮助的动作
未来	确定性或有限分支	人类行为并发导致指数级增长的未来分支
核心挑战	规划效率	预测价值在不确定性下的鲁棒性

方法详解¶

整体框架¶

CMAST 框架由两大核心组件构成：

搜索树模块：显式建模开放未来的动作空间，支持可扩展的测试时思考（类似 OpenAI-O3 和 DeepSeek-R1）
协作多智能体系统：7 个专门化的 LMM/LLM 智能体各负责推理的不同阶段

关键设计¶

1. 问题形式化¶

给定输入视频片段 $I_{0:t_0}$，模型生成预测任务集 $\hat{Q}_I = \{{\hat{y}_1, \hat{y}_2, \dots, \hat{y}_i}\}$。

优化目标（双目标）： $$\max_G |\hat{Q}_I \cap Q_I^{hc}| \quad \text{（发现尽可能多的人类中心任务）}$$ $$\max_G \frac{|\hat{Q}_I \cap Q_I^{hc}|}{|\hat{Q}_I|} \quad \text{（发现的任务中有帮助的比例尽可能高）}$$

人类中心任务的定义：任务 $y$ 是人类中心的当且仅当完成它后会减少人类达成目标的总代价： $$y \in Q_I^{hc} \iff y \in Q \land \mathcal{L}(A'_z, z) < \mathcal{L}(A_z, z)$$

其中 $A_z$ 是原始动作序列，$A'_z$ 是机器人执行任务 $y$ 后人类调整后的序列，$\mathcal{L}$ 是代价函数（时间、体力等）。

2. 搜索树模块¶

搜索树 $T = (V, E)$，每个节点是一个动作，边表示时序关系：

历史部分（前 $N$ 层）：线性链，由视频中已观察到的动作确定
未来部分（$N$ 层之后）：开始分支，每个分支代表一种可能的下一步。叶节点表示活动完成

搜索策略：采用带 0.5 概率阈值的剪枝穷举搜索。也探索了贪心搜索（beam=1）和不同 beam size 的 beam search。

可扩展性：搜索树自然支持更多计算时间 → 更多分支展开 → 更全面的任务发现，这与 O3/R1 的 test-time scaling 思想一致。

3. 7 个协作智能体¶

智能体	角色	类型	输入	输出
Scene Description Agent	理解视频场景	LMM	视频	场景描述 $s$
History Action Recognition	识别历史动作	LMM	视频+场景	初始搜索树（线性链）
Next Action Prediction	预测下一动作	LMM	动作路径+视频+场景	子节点集合
Likelihood Estimation	估计子节点概率	LLM	动作路径+候选	概率分布（用于排序和剪枝）
Redundancy Removing	移除冗余分支	LLM	展开的子树	剪枝后的子树
Dependency Recognition	识别前置依赖	LLM	所有路径	过滤掉有前置条件的动作
Task Converting	动作→任务描述	LLM	独立动作集	机器人视角的任务描述集

三个核心扩展智能体（预测、估计、剪枝）迭代工作直到所有未展开节点都是叶节点或达到最大树高。

4. 基于仿真的评估¶

由于完全标注所有有帮助的任务不可行（指数级未来分支），本文提出使用 LLM 模拟器作为评估工具：

给定机器人发现的任务 $\hat{y}_n$ + 历史动作 + 目标 $z$
模拟器推导出人类调整后的未来轨迹 $A'_z$
估计代价 $\mathcal{L}(A'_z, z)$ 并与原始代价 $\mathcal{L}(A_z, z)$ 比对

优势：可评估任意假设未来——包括数据集中未实际发生的场景。人类评估验证了模拟器与人类偏好的高对齐度。

实现细节¶

框架完全免训练。LMM 智能体使用 LLaVA-Next-Video，LLM 智能体使用 Qwen-LM。

实验关键数据¶

主实验：HOTD-Bench 仿真评估¶

方法	TSU vc@40	TSU vr@40	CHA vc@20	CHA vr@20
Qwen2VL-7B	2.71	44.2%	2.06	43.1%
Qwen2.5VL-72B	2.47	47.6%	3.01	40.9%
InternVL2-8B	2.51	61.0%	2.47	54.5%
LLaVA-NV-7B	3.34	50.2%	6.20	54.1%
LLaVA-NV-34B	3.39	44.2%	3.55	40.8%
CMAST（本文）	3.83	71.9%	2.73	55.5%

Valid Task Ratio：CMAST 在 TSU 上超出次优方法 15-22 个百分点
Valid Task Count：CMAST 在 TSU 上的均值比次优高 7.6%
更大的模型（如 72B Qwen2.5VL）并不比小模型更好——说明规模提升不等于任务发现能力提升

消融实验¶

搜索树模块消融：

配置	Valid Task Ratio	变化
CMAST w/o tree	~35%	-37%
CMAST (完整)	~72%	—

移除搜索树 → 有效任务比例骤降 37%，证明搜索树是核心组件。

搜索策略消融：

策略	发现有帮助任务数	Valid Task Ratio	效率(展开次数)
Greedy (beam=1)	~1.4	~72%	最少
Beam=2	~2.5	~72%	中等
Pruned exhaustive (0.5)	~3.8	~72%	最多

有效任务比例始终不变（~72%），但发现的有帮助任务数随计算量增加而增多——验证了 test-time scaling 的有效性。

与不同 LMM 集成：

变体	Valid Task Ratio 提升
CMAST-LLaVA vs vanilla LLaVA	+39%+
CMAST-InternVL2 vs vanilla InternVL2	+39%+
CMAST-Qwen2 vs vanilla Qwen2	+39%+

无论底层 LMM 是什么，CMAST 框架都能带来至少 39% 的 Valid Task Ratio 提升。

关键发现¶

现有 LMM 在 HOTD 上表现有限：最好的 baseline 也只有约 60% 的 Valid Task Ratio—— 对话指令语料训练不足以捕获人类行为预期
搜索树是效果的关键：提供了显式的、结构化的程序空间，允许对不同动作序列的全面探索
Test-time scaling 有效：更多计算时间 → 更多有帮助任务被发现，且精度不下降
CMAST 可达人类水平：在 10 个随机样本上与人类表现相当
LLM 模拟器可靠：人类评估者大量同意模拟器对任务帮助性的判断

亮点与洞察¶

问题定义本身是核心贡献：HOTD 的形式化（特别是通过代价减少定义"人类中心"）清晰且实用
仿真评估的设计非常精妙：避免了指数级标注成本，同时能评估假设场景——这本身就是一个可复用的方法论贡献
多智能体分解的优雅：每个智能体对应搜索树操作的一个阶段（初始化/扩展/剪枝/后处理），自然解耦
与 test-time compute scaling 的连接：搜索树天然支持"更多思考 = 更好结果"

局限与展望¶

框架依赖 LLaVA-Next-Video 和 Qwen-LM——受限于这些模型的视频理解和推理能力
搜索树的最大高度和分支因子仍需手动设定
仅在室内家务场景中测试——户外和更复杂的多人协作场景未验证
模拟器的 LLM 可能对某些罕见场景存在偏差
未考虑任务执行的间物理可行性（如机器人能否实际完成"擦桌子"）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 问题定义+基准+方法三重贡献，HOTD 形式化具有开创性
实验充分度: ⭐⭐⭐⭐ — 多基线对比+消融+人类评估+搜索策略分析+跨 LMM 集成
写作质量: ⭐⭐⭐⭐ — 问题动机阐述精彩，形式化清晰
价值: ⭐⭐⭐⭐⭐ — 为具身 AI 的预见性辅助开辟了新方向