跳转至

Human-Machine Ritual: Synergic Performance through Real-Time Motion Recognition

会议: NeurIPS 2025
arXiv: 2511.02351
代码: 无
领域: 人机交互 / 创意AI
关键词: IMU传感器, 运动识别, MiniRocket, 实时交互, 舞蹈-音乐协同

一句话总结

提出一种轻量级实时动作识别系统,利用可穿戴 IMU 传感器 + MiniRocket 时序分类器实现 <50ms 延迟的舞者特定动作识别(96.05% 准确率),通过"具身记忆映射"将舞者的个人动作-声音关联编码到系统中,构建了一种尊重人体表达深度的人机协作表演范式。

研究背景与动机

  1. 领域现状:人机协作表演是新媒体艺术的热点方向。现有系统(如 EDGE 舞蹈-音乐生成、LuminAI 即兴舞伴)倾向于让 AI 生成舞蹈动作或音乐,将机器定位为"创造者"角色。

  2. 现有痛点

  3. AI 生成式系统依赖预定义的音乐流派标签和通用数据集(如 AIST++),忽略了艺术家个人的具身体验和记忆关联
  4. 离散手势输入(如 Wekinator)不适合连续的舞蹈动作
  5. 大多数系统将重点放在 AI 的创造力上,而非对人类表达的"深度倾听"

  6. 核心矛盾:AI 驱动的表演系统追求机器的自主创作能力,但这可能遮蔽而非增强人类身体的表达深度——舞蹈中的身体知识(触感、记忆、直觉)无法被算法替代。

  7. 本文要解决什么? 设计一种"机器不创造,只记忆"的协作范式——机器学会识别舞者的动作并触发舞者自己关联的声音,而非生成新的内容。

  8. 切入角度:从身体学(somatics)哲学出发,将舞者的身体视为"档案和神谕"——每个动作背后都有个人记忆和意象,机器的角色是"注意力充沛的舞台监督"而非"联合创作者"。

  9. 核心 idea 一句话:IMU + MiniRocket 实时识别舞者个人化动作 → 触发舞者自己关联的声音记忆 = 基于回忆(非生成)的人机协同表演。

方法详解

整体框架

两阶段流水线:(1) 训练阶段:舞者听到个人有意义的声音 → 即兴舞蹈 → 4 个 IMU 传感器(手腕+脚踝)采集 6 轴数据(加速度+陀螺仪,共 24 通道,48Hz)→ 分段 + 增强(抖动/时间扭曲)→ MiniRocket 特征提取 + Ridge 分类器训练。(2) 表演阶段:实时 IMU 数据流 → BLE 传到 GPU 服务器 → MiniRocket推理 → 返回动作类别和概率 → 触发对应声音/投影。

关键设计

  1. 具身记忆映射(Embodied Memory Mapping):
  2. 做什么:建立舞者个人的动作-声音关联
  3. 核心思路:不使用预定义标签或 AI 生成的映射,而是让舞者听到特定声音后即兴起舞,将动作与声音的"记忆关联"编码到训练数据中。舞者用语言描述每个声音唤起的记忆/意象(如"地铁通勤的重复感"),这些描述指导声音在表演中的叙事组织
  4. 设计动机:让声音对舞者有意义,让动作由声音自然激发,形成紧密的意义反馈回路——机器是"回忆的桥梁"而非"创意的来源"

  5. IMU + MiniRocket 实时分类:

  6. 做什么:高精度、低延迟的连续动作识别
  7. 核心思路:4 个 IMU(各约25g,BLE 无线)→ 24 通道时序 → 2 秒窗口分段 → MiniRocket 生成 10,000 个最小随机卷积核特征 → Ridge 回归分类器。完整推理(数据流→服务器→返回结果)<50ms,推理本身约15ms
  8. 设计动机:MiniRocket 在时序分类中精度高且无需 GPU 训练,Ridge 分类器简单快速,整体系统轻量到可在现场表演中实时运行

  9. 数据增强策略:

  10. 做什么:从小数据集(648 样本,7 类)中获得足够训练数据
  11. 核心思路:对 IMU 时序数据做 jittering(加高斯噪声)和 time warping(时间轴随机拉伸/压缩)
  12. 设计动机:舞者特定的训练数据量天然有限(现场采集),增强是必要的

损失函数 / 训练策略

  • Ridge 回归分类器(L2 正则化线性模型)
  • 10 折分层交叉验证
  • 训练数据:648 样本,7 个动作类别

实验关键数据

主实验

10 折交叉验证:

指标
平均准确率 96.05% \(\pm\) 2.89%
宏平均 F1 96.62%
所有类别 AUC > 0.99
端到端延迟 < 50ms
推理延迟 ~15ms

消融:各类别混淆矩阵

类别 准确率 说明
类别 0(静止) 最高 与其他动作区分明显
类别 1-6(舞蹈) 仅在过渡段概率下降
过渡阶段 概率降低 2秒窗口跨两个动作时出现时序模糊

关键发现

  • 96% 准确率仅用 648 个样本:MiniRocket 的样本效率非常高,适合个性化小数据场景
  • <50ms 延迟满足实时表演需求:人类感知延迟阈值约 100ms,系统远低于此
  • 过渡段是主要错误来源:2 秒窗口横跨两个动作时分类不确定性增加,但这在表演中反而可以利用(概率渐变触发声音渐变)
  • 所有 AUC > 0.99:各类别高度可区分

亮点与洞察

  • "回忆而非生成"的人机协作哲学非常独特——将 AI 从"联合创作者"重新定位为"记忆的载体和触发器",尊重了人类身体的不可替代性
  • IMU + MiniRocket 的工程实用性:整套系统成本极低(4 个 IMU + 笔记本/手机),可复现性强,适合资源有限的表演艺术场景
  • MiniRocket 在创意 AI/交互式机器学习中的首次应用值得关注

局限性 / 可改进方向

  • 648 样本数据集很小,泛化到其他舞者时需要重新训练
  • 无过渡动作处理——2 秒窗口可能截断快速连续动作
  • 仅在排练中测试,未在正式公开表演中评估系统稳定性和观众体验
  • 当前仅支持离散类别识别,连续动作质量评估(如"这个旋转的力度/流畅度")不支持
  • 声音映射目前完全手动,未探索半自动关联发现

相关工作与启发

  • vs EDGE / MusicGen 系统:这些系统让 AI 生成舞蹈/音乐内容。本文的系统让 AI 仅识别和触发,保持人类作为唯一内容来源
  • vs Wekinator (Fiebrink):Wekinator 用简单分类器做离散手势识别。本文使用 MiniRocket 处理连续时序,更适合舞蹈的流动性
  • vs LuminAI / MIT Co-Dancing:这些系统让 AI 作为虚拟舞伴生成动作。本文让 AI 作为"舞台监督"控制媒体

评分

  • 新颖性: ⭐⭐⭐⭐ "回忆而非生成"的人机协作哲学独特,MiniRocket 在创意AI中的首次应用
  • 实验充分度: ⭐⭐⭐ 技术验证完整但仅排练论证,样本小
  • 写作质量: ⭐⭐⭐⭐ 哲学动机和技术实现的结合流畅
  • 价值: ⭐⭐⭐ 对新媒体艺术和交互AI有参考,但技术贡献有限