Human-Machine Ritual: Synergic Performance through Real-Time Motion Recognition¶
会议: NeurIPS 2025
arXiv: 2511.02351
代码: 无
领域: 人机交互 / 创意AI
关键词: IMU传感器, 运动识别, MiniRocket, 实时交互, 舞蹈-音乐协同
一句话总结¶
提出一种轻量级实时动作识别系统,利用可穿戴 IMU 传感器 + MiniRocket 时序分类器实现 <50ms 延迟的舞者特定动作识别(96.05% 准确率),通过"具身记忆映射"将舞者的个人动作-声音关联编码到系统中,构建了一种尊重人体表达深度的人机协作表演范式。
研究背景与动机¶
-
领域现状:人机协作表演是新媒体艺术的热点方向。现有系统(如 EDGE 舞蹈-音乐生成、LuminAI 即兴舞伴)倾向于让 AI 生成舞蹈动作或音乐,将机器定位为"创造者"角色。
-
现有痛点:
- AI 生成式系统依赖预定义的音乐流派标签和通用数据集(如 AIST++),忽略了艺术家个人的具身体验和记忆关联
- 离散手势输入(如 Wekinator)不适合连续的舞蹈动作
-
大多数系统将重点放在 AI 的创造力上,而非对人类表达的"深度倾听"
-
核心矛盾:AI 驱动的表演系统追求机器的自主创作能力,但这可能遮蔽而非增强人类身体的表达深度——舞蹈中的身体知识(触感、记忆、直觉)无法被算法替代。
-
本文要解决什么? 设计一种"机器不创造,只记忆"的协作范式——机器学会识别舞者的动作并触发舞者自己关联的声音,而非生成新的内容。
-
切入角度:从身体学(somatics)哲学出发,将舞者的身体视为"档案和神谕"——每个动作背后都有个人记忆和意象,机器的角色是"注意力充沛的舞台监督"而非"联合创作者"。
-
核心 idea 一句话:IMU + MiniRocket 实时识别舞者个人化动作 → 触发舞者自己关联的声音记忆 = 基于回忆(非生成)的人机协同表演。
方法详解¶
整体框架¶
两阶段流水线:(1) 训练阶段:舞者听到个人有意义的声音 → 即兴舞蹈 → 4 个 IMU 传感器(手腕+脚踝)采集 6 轴数据(加速度+陀螺仪,共 24 通道,48Hz)→ 分段 + 增强(抖动/时间扭曲)→ MiniRocket 特征提取 + Ridge 分类器训练。(2) 表演阶段:实时 IMU 数据流 → BLE 传到 GPU 服务器 → MiniRocket推理 → 返回动作类别和概率 → 触发对应声音/投影。
关键设计¶
- 具身记忆映射(Embodied Memory Mapping):
- 做什么:建立舞者个人的动作-声音关联
- 核心思路:不使用预定义标签或 AI 生成的映射,而是让舞者听到特定声音后即兴起舞,将动作与声音的"记忆关联"编码到训练数据中。舞者用语言描述每个声音唤起的记忆/意象(如"地铁通勤的重复感"),这些描述指导声音在表演中的叙事组织
-
设计动机:让声音对舞者有意义,让动作由声音自然激发,形成紧密的意义反馈回路——机器是"回忆的桥梁"而非"创意的来源"
-
IMU + MiniRocket 实时分类:
- 做什么:高精度、低延迟的连续动作识别
- 核心思路:4 个 IMU(各约25g,BLE 无线)→ 24 通道时序 → 2 秒窗口分段 → MiniRocket 生成 10,000 个最小随机卷积核特征 → Ridge 回归分类器。完整推理(数据流→服务器→返回结果)<50ms,推理本身约15ms
-
设计动机:MiniRocket 在时序分类中精度高且无需 GPU 训练,Ridge 分类器简单快速,整体系统轻量到可在现场表演中实时运行
-
数据增强策略:
- 做什么:从小数据集(648 样本,7 类)中获得足够训练数据
- 核心思路:对 IMU 时序数据做 jittering(加高斯噪声)和 time warping(时间轴随机拉伸/压缩)
- 设计动机:舞者特定的训练数据量天然有限(现场采集),增强是必要的
损失函数 / 训练策略¶
- Ridge 回归分类器(L2 正则化线性模型)
- 10 折分层交叉验证
- 训练数据:648 样本,7 个动作类别
实验关键数据¶
主实验¶
10 折交叉验证:
| 指标 | 值 |
|---|---|
| 平均准确率 | 96.05% \(\pm\) 2.89% |
| 宏平均 F1 | 96.62% |
| 所有类别 AUC | > 0.99 |
| 端到端延迟 | < 50ms |
| 推理延迟 | ~15ms |
消融:各类别混淆矩阵¶
| 类别 | 准确率 | 说明 |
|---|---|---|
| 类别 0(静止) | 最高 | 与其他动作区分明显 |
| 类别 1-6(舞蹈) | 高 | 仅在过渡段概率下降 |
| 过渡阶段 | 概率降低 | 2秒窗口跨两个动作时出现时序模糊 |
关键发现¶
- 96% 准确率仅用 648 个样本:MiniRocket 的样本效率非常高,适合个性化小数据场景
- <50ms 延迟满足实时表演需求:人类感知延迟阈值约 100ms,系统远低于此
- 过渡段是主要错误来源:2 秒窗口横跨两个动作时分类不确定性增加,但这在表演中反而可以利用(概率渐变触发声音渐变)
- 所有 AUC > 0.99:各类别高度可区分
亮点与洞察¶
- "回忆而非生成"的人机协作哲学非常独特——将 AI 从"联合创作者"重新定位为"记忆的载体和触发器",尊重了人类身体的不可替代性
- IMU + MiniRocket 的工程实用性:整套系统成本极低(4 个 IMU + 笔记本/手机),可复现性强,适合资源有限的表演艺术场景
- MiniRocket 在创意 AI/交互式机器学习中的首次应用值得关注
局限性 / 可改进方向¶
- 648 样本数据集很小,泛化到其他舞者时需要重新训练
- 无过渡动作处理——2 秒窗口可能截断快速连续动作
- 仅在排练中测试,未在正式公开表演中评估系统稳定性和观众体验
- 当前仅支持离散类别识别,连续动作质量评估(如"这个旋转的力度/流畅度")不支持
- 声音映射目前完全手动,未探索半自动关联发现
相关工作与启发¶
- vs EDGE / MusicGen 系统:这些系统让 AI 生成舞蹈/音乐内容。本文的系统让 AI 仅识别和触发,保持人类作为唯一内容来源
- vs Wekinator (Fiebrink):Wekinator 用简单分类器做离散手势识别。本文使用 MiniRocket 处理连续时序,更适合舞蹈的流动性
- vs LuminAI / MIT Co-Dancing:这些系统让 AI 作为虚拟舞伴生成动作。本文让 AI 作为"舞台监督"控制媒体
评分¶
- 新颖性: ⭐⭐⭐⭐ "回忆而非生成"的人机协作哲学独特,MiniRocket 在创意AI中的首次应用
- 实验充分度: ⭐⭐⭐ 技术验证完整但仅排练论证,样本小
- 写作质量: ⭐⭐⭐⭐ 哲学动机和技术实现的结合流畅
- 价值: ⭐⭐⭐ 对新媒体艺术和交互AI有参考,但技术贡献有限