Knolling Bot: Teaching Robots the Human Notion of Tidiness¶

会议: NeurIPS 2025 arXiv: 2310.04566 代码: 开源数据集与基准（视频演示）领域: 机器人 / 物体整理 关键词: knolling, object rearrangement, transformer, Gaussian Mixture Model, self-supervised learning, robot manipulation

一句话总结¶

提出基于 Transformer + GMM 的自监督学习框架，让机器人从 240 万组整理示范中学习"整洁"的抽象概念，以自回归方式预测物体目标位置，实现桌面物体的美观且紧凑的自动整理（knolling），并支持基于用户偏好（颜色/类别/大小）生成多样化整理方案。

研究背景与动机¶

领域现状：家庭机器人需要完成各种整理任务，但现有工作多聚焦于基于明确指令的物体重排（object rearrangement），或依赖 LLM 提供常识。缺少对"整洁"这一抽象概念的通用建模。
核心挑战：
"整洁"是高度主观的概念——同一组物体存在多种合理的整理方式（按颜色、按类别、按大小等）
家庭环境物体种类多变，数量不固定，无法为每个场景预设目标位置
简单的回归模型会对多个合理目标取平均，导致物体重叠等不合理结果（如图 2A 所示）
切入角度：将 knolling（将散乱物品排列为整齐、紧凑布局的行为）类比为 NLP 中的序列预测问题——物体是"词"，整理结果是"句子"，用 Transformer 自回归生成每个物体的目标位置。

核心问题¶

如何让机器人从示范数据中学习一个通用的"整洁度"表示，使其能够：(1) 处理任意数量和种类的物体；(2) 生成多样化的整理方案以适应不同用户偏好；(3) 在真实环境中部署并完成桌面整理任务？

方法详解¶

整体框架¶

系统分为三个解耦模块： 1. Knolling 模型：基于 Transformer 预测物体的目标位置 2. 视觉感知模型：基于定制 YOLOv8 检测物体并提取状态 3. 机械臂控制器：执行 pick-and-place 操作

数据表示与生成¶

输入表示：仅使用物体的宽度（w）和长度（l）作为输入特征，刻意排除颜色、类别等语义属性，因为这些属性主观性强、容易引入偏差
数据生成：设计优化策略迭代调整物体位置以最小化占用面积，通过控制排列顺序（按颜色/尺寸/类别）生成多样化的整理模式
数据规模：通过随机化过程生成 240 万组整理示范，覆盖广泛的整洁概念
不规则物体：训练视觉感知系统进行分割并计算最小外接矩形

Knolling 模型训练¶

采用课程式两阶段训练：

阶段一：自监督预训练 - 使用 masked learning 方法：遮盖部分物体数据，让模型预测被遮盖物体的位置 - 类似 BERT 的预训练思路，让模型学习物体排列的基本规律

阶段二：微调 - 在完整的 knolling 任务上微调，提升模型从零开始完成完整整理任务的能力

多标签预测：GMM 机制¶

针对同一输入可能对应多个合理输出的问题，引入 Gaussian Mixture Model (GMM) / Mixture Density Network
GMM 可以输出多峰分布，避免简单回归对多个目标取平均导致的不合理结果
每个 Gaussian 分量对应一种可能的摆放方式

偏好控制¶

偏好不作为显式输入，而是通过输入序列的排列顺序隐式编码
按颜色排序输入→生成按颜色分组的整理结果
按大小排序→按大小分组；按类别排序→按类别分组
无需修改模型架构即可适应不同偏好

实验关键数据¶

仿真实验¶

测试物体数量 2-10 个，模型均能成功生成整齐排列
自回归特性使模型天然支持可变长度输入
通过改变输入排列顺序，对同一组物体生成基于颜色、类别、大小的不同整理方案

真实世界实验¶

硬件：WidowX 200 五自由度机械臂 + Intel RealSense D435 相机
随机放置 6-10 个不同大小和颜色的方块
完整流程：俯视图像 → YOLOv8 检测 → Knolling 模型预测目标位置 → 机械臂执行 pick-and-place
在不同物体配置和数量下均成功完成整理任务
对同一组物体能生成基于不同偏好的多种整齐排列

关键发现¶

Transformer 优于基线架构：自注意力和自回归机制在处理可变长度输入和多标签预测上具有明显优势
GMM 解决多模态问题：有效避免了回归方法在多解场景下的平均化问题
性能随数据量提升：不同于规则方法在场景增多时复杂度爆炸，学习方法性能随数据量增加而提升

亮点¶

NLP-机器人的巧妙类比：将物体整理类比为序列预测问题，物体=词、整理结果=句子，自然地引入 Transformer 架构
偏好作为序列顺序：无需修改模型或增加输入维度，仅通过改变输入顺序即可实现偏好控制——极其优雅
模块化设计：认知模型与感知/控制解耦，提高了系统的可解释性和可维护性
大规模自监督：240 万组自动生成的示范数据，无需人工标注
端到端真实部署：不只是仿真验证，在真实机械臂上完成了完整的 knolling 任务

局限性 / 可改进方向¶

仅使用 2D 信息：当前方法基于俯视图的 2D 表示（宽、长），无法处理物体堆叠或 3D 整理场景
物体形状简化：使用最小外接矩形表示物体，对高度不规则物体的整理效果可能受限
固定工作区域：仅在机械臂可达范围内整理，无法处理更大空间场景（如整理房间）
偏好表达有限：仅通过输入排列顺序控制偏好，无法表达更复杂的整理偏好（如"把常用物品放在手边"）
缺乏交互式反馈：整理过程中无法根据用户实时反馈调整方案
评估指标：论文中对"整洁度"的量化评估标准仍较有限，缺少与人类判断的系统性对比

与相关工作的对比¶

方法	特点	局限
Housekeep (Kant et al. 2022)	利用 LLM 常识进行整理	依赖语言指令，需预定义规则
TIDEE (Sarch et al. 2022)	视觉-语义先验整理房间	聚焦房间级别，非桌面 knolling
StructFormer (Liu et al. 2022)	语言引导的语义重排	需要语言指令指定目标
My House, My Rules (Kapelyukh 2022)	GNN 学习整理偏好	需要显式偏好标注
本文	自监督学习整洁表示	偏好通过序列顺序隐式编码，无需语言指令

启发与关联¶

跨领域迁移：NLP 技术（Transformer、自回归、masked learning）迁移到机器人整理任务的成功案例，启示其他物理世界任务或许也可类比为序列问题
美学建模：将人类主观的美学偏好转化为可学习的数据分布是一个有价值的研究方向，可推广到室内设计、展陈布局等场景
多模态输出：GMM 处理"一对多"映射的思路可推广到其他存在多个合理解的机器人任务（如路径规划、抓取策略选择）

评分¶

新颖性: ⭐⭐⭐⭐ （NLP 类比 + 偏好即顺序的设计巧妙）
实验充分度: ⭐⭐⭐⭐ （仿真+真实机器人，消融实验完整）
写作质量: ⭐⭐⭐⭐ （图示清晰，动机阐述充分）
价值: ⭐⭐⭐⭐ （开源数据集和基准，有实际部署价值）