Human-Machine Ritual: Synergic Performance through Real-Time Motion Recognition¶

会议: NeurIPS 2025
arXiv: 2511.02351
代码: 无
领域: 人机交互 / 创意AI
关键词: IMU传感器, 运动识别, MiniRocket, 实时交互, 舞蹈-音乐协同

一句话总结¶

提出一种轻量级实时动作识别系统，利用可穿戴 IMU 传感器 + MiniRocket 时序分类器实现 <50ms 延迟的舞者特定动作识别（96.05% 准确率），通过"具身记忆映射"将舞者的个人动作-声音关联编码到系统中，构建了一种尊重人体表达深度的人机协作表演范式。

研究背景与动机¶

领域现状：人机协作表演是新媒体艺术的热点方向。现有系统（如 EDGE 舞蹈-音乐生成、LuminAI 即兴舞伴）倾向于让 AI 生成舞蹈动作或音乐，将机器定位为"创造者"角色。
现有痛点：
AI 生成式系统依赖预定义的音乐流派标签和通用数据集（如 AIST++），忽略了艺术家个人的具身体验和记忆关联
离散手势输入（如 Wekinator）不适合连续的舞蹈动作
大多数系统将重点放在 AI 的创造力上，而非对人类表达的"深度倾听"
核心矛盾：AI 驱动的表演系统追求机器的自主创作能力，但这可能遮蔽而非增强人类身体的表达深度——舞蹈中的身体知识（触感、记忆、直觉）无法被算法替代。
本文要解决什么？ 设计一种"机器不创造，只记忆"的协作范式——机器学会识别舞者的动作并触发舞者自己关联的声音，而非生成新的内容。
切入角度：从身体学（somatics）哲学出发，将舞者的身体视为"档案和神谕"——每个动作背后都有个人记忆和意象，机器的角色是"注意力充沛的舞台监督"而非"联合创作者"。
核心 idea 一句话：IMU + MiniRocket 实时识别舞者个人化动作 → 触发舞者自己关联的声音记忆 = 基于回忆（非生成）的人机协同表演。

方法详解¶

整体框架¶

两阶段流水线：(1) 训练阶段：舞者听到个人有意义的声音 → 即兴舞蹈 → 4 个 IMU 传感器（手腕+脚踝）采集 6 轴数据（加速度+陀螺仪，共 24 通道，48Hz）→ 分段 + 增强（抖动/时间扭曲）→ MiniRocket 特征提取 + Ridge 分类器训练。(2) 表演阶段：实时 IMU 数据流 → BLE 传到 GPU 服务器 → MiniRocket推理 → 返回动作类别和概率 → 触发对应声音/投影。

关键设计¶

具身记忆映射（Embodied Memory Mapping）:
做什么：建立舞者个人的动作-声音关联
核心思路：不使用预定义标签或 AI 生成的映射，而是让舞者听到特定声音后即兴起舞，将动作与声音的"记忆关联"编码到训练数据中。舞者用语言描述每个声音唤起的记忆/意象（如"地铁通勤的重复感"），这些描述指导声音在表演中的叙事组织
设计动机：让声音对舞者有意义，让动作由声音自然激发，形成紧密的意义反馈回路——机器是"回忆的桥梁"而非"创意的来源"
IMU + MiniRocket 实时分类:
做什么：高精度、低延迟的连续动作识别
核心思路：4 个 IMU（各约25g，BLE 无线）→ 24 通道时序 → 2 秒窗口分段 → MiniRocket 生成 10,000 个最小随机卷积核特征 → Ridge 回归分类器。完整推理（数据流→服务器→返回结果）<50ms，推理本身约15ms
设计动机：MiniRocket 在时序分类中精度高且无需 GPU 训练，Ridge 分类器简单快速，整体系统轻量到可在现场表演中实时运行
数据增强策略:
做什么：从小数据集（648 样本，7 类）中获得足够训练数据
核心思路：对 IMU 时序数据做 jittering（加高斯噪声）和 time warping（时间轴随机拉伸/压缩）
设计动机：舞者特定的训练数据量天然有限（现场采集），增强是必要的

损失函数 / 训练策略¶

Ridge 回归分类器（L2 正则化线性模型）
10 折分层交叉验证
训练数据：648 样本，7 个动作类别

实验关键数据¶

主实验¶

10 折交叉验证：

指标	值
平均准确率	96.05% \(\pm\) 2.89%
宏平均 F1	96.62%
所有类别 AUC	> 0.99
端到端延迟	< 50ms
推理延迟	~15ms

消融：各类别混淆矩阵¶

类别	准确率	说明
类别 0（静止）	最高	与其他动作区分明显
类别 1-6（舞蹈）	高	仅在过渡段概率下降
过渡阶段	概率降低	2秒窗口跨两个动作时出现时序模糊

关键发现¶

96% 准确率仅用 648 个样本：MiniRocket 的样本效率非常高，适合个性化小数据场景
<50ms 延迟满足实时表演需求：人类感知延迟阈值约 100ms，系统远低于此
过渡段是主要错误来源：2 秒窗口横跨两个动作时分类不确定性增加，但这在表演中反而可以利用（概率渐变触发声音渐变）
所有 AUC > 0.99：各类别高度可区分

亮点与洞察¶

"回忆而非生成"的人机协作哲学非常独特——将 AI 从"联合创作者"重新定位为"记忆的载体和触发器"，尊重了人类身体的不可替代性
IMU + MiniRocket 的工程实用性：整套系统成本极低（4 个 IMU + 笔记本/手机），可复现性强，适合资源有限的表演艺术场景
MiniRocket 在创意 AI/交互式机器学习中的首次应用值得关注

局限性 / 可改进方向¶

648 样本数据集很小，泛化到其他舞者时需要重新训练
无过渡动作处理——2 秒窗口可能截断快速连续动作
仅在排练中测试，未在正式公开表演中评估系统稳定性和观众体验
当前仅支持离散类别识别，连续动作质量评估（如"这个旋转的力度/流畅度"）不支持
声音映射目前完全手动，未探索半自动关联发现

评分¶

新颖性: ⭐⭐⭐⭐ "回忆而非生成"的人机协作哲学独特，MiniRocket 在创意AI中的首次应用
实验充分度: ⭐⭐⭐ 技术验证完整但仅排练论证，样本小
写作质量: ⭐⭐⭐⭐ 哲学动机和技术实现的结合流畅
价值: ⭐⭐⭐ 对新媒体艺术和交互AI有参考，但技术贡献有限