AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments¶

会议: AAAI 2026
arXiv: 2506.11773v4
代码: https://github.com/ZikangLeng/AgentSense
领域: 人类活动识别 (HAR) / 具身AI / 合成数据生成
关键词: LLM Agent, 虚拟传感器数据, 智能家居, 人类活动识别, 模拟环境

一句话总结¶

利用LLM驱动的具身智能体在模拟智能家居中"生活"，生成虚拟环境传感器数据用于预训练HAR模型，在低资源场景下显著提升活动识别性能。

背景与动机¶

智能家居中的人类活动识别（HAR）依赖环境传感器（运动、门、设备激活等）来监测日常活动，在医疗保健和老年护理等领域至关重要。然而，HAR模型的发展受限于大规模标注传感器数据的稀缺——不同家庭布局、传感器配置和居民行为模式的差异使数据收集成本极高，且涉及隐私问题。现有的合成数据生成方法主要集中在可穿戴传感器（如从视频/音频生成IMU数据），对环境传感器的支持不足。虽然VirtualHome等仿真平台能模拟家庭活动，但缺乏环境传感器模拟能力，无法直接产生传感器级数据。

核心问题¶

如何在不进行真实世界数据采集的前提下，自动生成多样化、隐私保护的环境传感器数据，以缓解HAR模型训练中的数据稀缺问题？关键挑战在于：(1) 生成行为多样性以覆盖不同人群和场景；(2) 将高层活动描述转化为模拟器可执行的细粒度动作；(3) 从仿真器中提取真实感的传感器信号。

方法详解¶

整体框架¶

AgentSense是一个端到端的虚拟传感器数据生成管线：LLM生成多样化人设 → LLM生成日常作息 → LLM分解为细粒度动作 → 动作清洗与验证 → 在X-VirtualHome中执行 → 虚拟传感器记录数据 → 标签映射到目标数据集。

关键设计¶

三阶段LLM提示管线:
人设生成: 利用LLM生成多样化的虚拟人设（年龄、职业、健康状况、生活习惯），捕捉行为多样性。
高层日程生成: 基于人设、星期几和家庭环境（房间列表）生成全天作息表，区分"在家"和"外出"活动，包含少样本示例引导，并避免过于整齐的时间槽。
低层动作分解: 将每个高层活动分解为模拟器可执行的动作序列（18种预定义动作如walk、grab、open等），LLM先选择合适房间，再基于房间内可用物品列表生成动作。
LLM输出到模拟器指令的转换（五步流程）:
清洗输出、嵌入VirtualHome词汇表（FAISS索引）、最近邻检索替换LLM幻觉token、阈值过滤（动作阈值0.8，物品阈值0.6）、组装最终命令。使用LangChain + OpenAI embeddings + FAISS实现语义对齐，消除LLM幻觉。
X-VirtualHome虚拟传感器系统:
运动传感器: 根据房间面积自动放置（小≤30m²放1个、中放2个、大>60m²放3个），每0.2秒追踪角色位置，检测半径5.0m，运动阈值ε=0.1m区分真实运动和抖动。
门传感器: 监测环境图中CAN_OPEN属性物品（门、柜子等）的CLOSED→OPEN状态转换。
设备激活传感器: 监测HAS_SWITCH属性物品（微波炉、洗衣机等）的OFF→ON状态转换。

损失函数 / 训练策略¶

采用TDOST框架（基于文本描述的布局无关HAR方法）：将传感器触发事件转换为自然语言句子 → 用all-distilroberta-v1编码 → 双向LSTM（64隐藏单元）分类。两种变体：TDOST-Basic（传感器类型+位置）和TDOST-Temporal（加入时间信息）。训练使用Adam优化器，学习率1e-4，ReduceLROnPlateau调度器，三折分层交叉验证。

实验关键数据¶

数据集	指标	Real (TDOST-Basic)	Real+Virtual (TDOST-Basic)	提升
Aruba	Accuracy	91.00	93.19	+2.19
Cairo	Accuracy	69.01	75.61	+6.60
Orange	Accuracy	82.40	85.21	+2.81
Aruba	Macro F1	63.98	72.20	+8.22
Cairo	Macro F1	51.51	62.47	+10.96
Orange	Macro F1	21.56	41.83	+20.27
Milan	Macro F1 (Temporal)	57.20	73.41	+16.21
Aruba	Macro F1 (Temporal)	68.57	77.36	+8.79

虚拟数据规模：18个人设 × 22个家庭布局 = 250天数据，3266个活动窗口。

消融实验要点¶

真实数据用量: 仅用5%-10%真实数据+虚拟预训练即可获得显著提升（Aruba Macro F1提升约10%，Kyoto7提升45%）。在Cairo和Orange上，约200个真实样本即可接近全量训练效果。
各组件贡献（在Aruba上）: 单人设+单天+单环境 Macro F1=68.35% → +多环境=70.69% → +多天=71.01% → +多人设=72.20%。每个多样性维度都有正贡献，且总数据量保持不变。- 不同下游模型变体：TDOST-Temporal 在 Milan 上 Macro F1 从 57.20% 提升至 73.41%（+16.21%），说明时序信息对虚拟数据质量提升尤为重要
跨布局泛化：尽管虚拟环境布局与真实家庭存在差异，预训练模型在 5 个不同的真实数据集上均有提升，证明行为多样性比布局匹配更重要

亮点¶

完整端到端管线: 从人设生成到传感器数据的全自动化流程，无需真实数据采集
LLM幻觉消除机制: 通过embedding+FAISS最近邻检索将LLM输出对齐到模拟器本体论，巧妙解决了LLM-仿真器接口问题
隐私保护: 完全基于仿真生成，避免侵入式真实数据采集
"Digital Cousin"理念: 不追求一对一的数字孪生，而是通过多样化agent和环境来生成多样数据
低资源场景价值: 仅需少量真实数据微调即可接近全量训练效果，实用性强

局限性 / 可改进方向¶

域差距: 虚拟环境与真实家庭布局存在差异（如Milan有更多房间），未做布局匹配
单居民假设: 仅模拟单人场景，无法处理多居民交互活动
活动覆盖不全: LLM自由生成可能遗漏某些常见活动（如Watch_TV、Enter_Home），需要更有针对性的提示
LLM选择单一: 仅测试了GPT-4o-mini，未探索其他LLM对生成质量的影响
传感器类型有限: 仅实现运动、门和设备激活三类传感器，未覆盖温度、湿度、光照等
评估框架单一: 仅用TDOST一种下游框架评估，未验证其他HAR模型
动作转换成功率：经过五步清洗流程后，约 87% 的 LLM 生成动作可成功转换为模拟器命令，剩余通过 LLM 重新生成或丢弃

与相关工作的对比¶

Generative Agents (Park et al., 2023): 同样用LLM驱动虚拟agent行为，但关注叙事和社交互动，不产生结构化传感器数据。AgentSense将此范式引向HAR数据生成这一具体下游任务。
IMUTube / IMUGPT (Kwon et al., 2020; Leng et al., 2024): 从视频/文本生成可穿戴IMU数据，但方法不适用于环境传感器（涉及空间和触发机制不同）。AgentSense填补了环境传感器合成数据的空白。
Yonekura et al. (2024): 用LLM生成智能家居日程，但未产生传感器数据。AgentSense在此基础上完成了从日程到传感器信号的完整链路。

启发与关联¶

跨模态合成数据思路值得借鉴: 从文本（LLM生成的人设和日程）到时序传感器数据的跨模态转换思路，可推广到其他传感器数据稀缺领域（如工业IoT、自动驾驶中的边缘场景传感器模拟）。
LLM作为行为先验: 利用LLM内化的人类行为知识作为合成数据的先验，这一范式可扩展到其他需要人类行为建模的任务（如人群模拟、交通流预测）。
仿真器+LLM的组合: LLM负责高层规划与多样性，仿真器保证物理合理性和传感器真实性，这种分工模式对具身AI数据生成有参考价值。
可扩展到多模态: 论文提到未来可联合生成Pose2IMU、Video2IMU数据，构建多模态同步数据集，这与视频理解中的跨视角学习有潜在关联。

评分¶

新颖性: ⭐⭐⭐⭐ （LLM驱动仿真生成环境传感器数据是新应用，但各模块技术相对成熟）
实验充分度: ⭐⭐⭐⭐ （5个真实数据集+消融实验，但仅用一种下游框架，缺少传感器数据质量的直接评估）
写作质量: ⭐⭐⭐⭐ （结构清晰，附录完整包含所有prompt模板，方法描述详实）
价值: ⭐⭐⭐⭐ （解决了HAR领域实际痛点，低资源场景效果显著，代码开源）

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值
建议结合实际应用需求评估该方法的部署可行性和计算效率
数据集和评估指标的选择可能影响结论的普适性，需在更多 benchmark 上交叉验证

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值