Multimodal Data Fusion to Capture Dynamic Interactions between Built Environment and Vulnerable Older Adults¶
会议: AAAI 2026
arXiv: 2601.11545
代码: 无
领域: 自动驾驶
关键词: 多模态数据融合, 建成环境, 老年人步行, SLAM轨迹重建, 城市规划
一句话总结¶
提出一种多模态数据融合框架,整合眼动追踪、运动传感器(IMU)、生理监测(EDA/HRV)、GPS和视频录制等多种穿戴与环境传感数据,动态表征脆弱老年人(膝骨关节炎/跌倒史)与城市建成环境的交互过程,通过AI驱动的数据融合揭示微观尺度上对步行行为和感知有显著影响的城市路段,为适老化城市规划提供循证依据。
研究背景与动机¶
问题定义¶
随着城市向以人为本和数据驱动的设计方向演进,理解建成环境(Built Environment, BE)如何影响脆弱人群的日常活动变得至关重要。对于有行动障碍的老年人(如膝骨关节炎、有跌倒史者),建成环境的微观特征(路面材质、行人过道、照明、空间布局)直接决定他们的步行安全感和行动能力。
现有方法的不足¶
调查/访谈/实地审计:主观报告受回忆偏差影响、样本量受限、时间成本高
GIS/街景图像分析:提供聚合统计层面的评估,无法捕捉逐时刻的行为、感知和生理反应
单一传感模态:仅用运动传感器或仅用生理传感器,无法全面理解人-环境交互
忽视个体差异:大规模空间分析可能掩盖不同个体在相同环境下的不同响应
核心动机¶
- 需要一种高时空分辨率的方法来捕捉"此时此刻"的行为-感知-生理反应
- 可穿戴传感器+计算机视觉+SLAM技术的成熟使得多模态融合成为可能
- 为城市规划者提供微观尺度的循证指标,补充传统环境数据
方法详解¶
整体框架¶
多模态数据采集与融合框架包含以下层次: 1. 穿戴传感:眼动追踪(Pupil Labs Neon)、运动传感器(ZurichMOVE IMU + Axivity A6)、生理监测(Empatica EmbracePlus) 2. 环境感知:胸戴GoPro第三人称视频、GPS定位 3. 轨迹重建:VINS-Fusion SLAM + GPS锚点融合 4. 环境表征:AI视觉模型(Mask2Former、Grounding DINO、SAM、OpenPose)自动提取BE特征 5. 多模态融合:时间/距离对齐,生成时空特征段
关键设计¶
1. 多模态数据采集系统¶
功能:为60-90分钟的自然步行实验设计完整的传感器配置方案,同步采集多种人体和环境信号。
传感器配套: - Pupil Labs Neon眼动追踪:记录注视向量、头部运动学、第一人称视频 → 分析视觉注意力与BE元素的交互 - ZurichMOVE IMU:安装在双脚、双手腕、躯干、头部 → 全身运动分析 - Axivity A6:安装在下背部,高频加速计和陀螺仪 → 步态参数(步数、步频变异、对称性) - Empatica EmbracePlus:手腕佩戴,记录EDA(皮电活动)、皮温、心率 → 压力和自主调节 - GoPro:研究人员跟拍第三人称视频 → 外部环境上下文 - GPS:全局定位
所有数据流时间同步,支持高时间分辨率的多模态对齐分析。
设计动机:每种传感器捕获不同维度的信息——注视=认知加工、步态=运动适应、生理=情绪/压力状态、视频=环境上下文。只有融合所有模态才能全面理解人-环境交互。
2. 轨迹重建与融合(SLAM + GPS)¶
功能:在GPS信号频繁丢失的城市环境(密集树冠、高层建筑)中实现连续高精度轨迹重建。
核心思路: 1. 使用VINS-Fusion算法对胸戴视频进行视觉惯性SLAM → 获得局部一致的平滑轨迹 2. 选择可靠GPS段作为空间锚点 3. 使用Umeyama相似变换将SLAM局部轨迹对齐到GPS全局坐标
设计动机:SLAM提供局部精度(亚米级)但存在漂移,GPS提供全局定位但在室内/遮蔽区域失效。融合方案结合两者优势:GPS的全局精度 + SLAM的局部连续性。
3. AI驱动的建成环境表征¶
功能:从视频和轨迹数据中自动提取微观尺度的建成环境特征。
路面材质分类: 1. Grounding DINO 生成区域提案 2. SAM 精确分割掩码 3. 线性探测器在14种城市路面类别(混凝土、沥青、瓷砖、砖等)上分类
路面宽度估计: 1. OpenPose 检测参与者骨架关键点和脚部位置 2. 识别脚部-地面接触区域 3. 以人体身高为参考,将像素距离转换为米
注视行为分析: 1. I-DT算法检测注视和扫视(自适应阈值+光流补偿头部运动) 2. 每个注视投射到对应帧→与Mask2Former语义分割结果交叉 → 识别引起视觉注意的BE元素 3. 聚合指标:注视频率、平均持续时间、水平/垂直离散度
生理信号处理: - EDA分解为相位和紧张分量,检测峰值索引唤醒频率 - HRV指标(RMSSD、pNN10)量化自主调节 - 时间映射到重建轨迹上→识别引发压力反应的微观环境
步态参数化: - IMU数据进行时域步幅分割 - 计算步数、平均步幅时间、步幅时间变异性(STV) - 升高的STV或不对称步态可能指示对环境障碍的适应反应
损失函数 / 训练策略¶
本文为系统/框架论文,不涉及端到端模型训练。各AI组件使用预训练模型: - Mask2Former:在Mapillary Vistas上预训练 - Grounding DINO + SAM:零样本使用 - OpenPose:标准人体姿态估计 - VINS-Fusion:视觉惯性SLAM标准实现
实验关键数据¶
主实验(初步结果)¶
本文为方法论文文,实验为概念验证性质:
轨迹重建评估: - 在新加坡Yio Chu Kang区实地测试 - 测试场景:有顶走道、地下通道、半封闭公共空间 - SLAM在GPS失效环境中保持平滑、局部一致的运动追踪 - 融合轨迹在室内-室外过渡时展现连续稳定的运动轨迹
路面特征提取:
| 功能 | 输入 | 输出 | 效果 |
|---|---|---|---|
| 材质分类 | 第三人称视频帧 | 14类路面材质标注 | 准确识别混凝土、沥青、花岗岩等 |
| 宽度估计 | OpenPose骨架+视频 | 连续宽度变化曲线 | 揭示窄-宽段过渡 |
| 轨迹标注 | SLAM+GPS融合轨迹 | 材质/宽度时空映射 | 支持逐米级BE条件分析 |
消融实验(多模态互补性分析)¶
虽然缺少传统消融实验,但文中通过系统说明展示了各模态的互补性:
| 模态 | 捕获维度 | 关键指标 | 应用价值 |
|---|---|---|---|
| 眼动追踪 | 认知感知 | 注视频率/持续时间/离散度 | 哪些BE元素引起关注 |
| IMU/加速计 | 运动适应 | 步频变异性/对称性 | 路面条件对步态的影响 |
| EDA/HRV | 情绪压力 | 皮电峰值/RMSSD | 哪些环境引发压力 |
| 第三人称视频 | 环境上下文 | 路面材质/宽度 | BE条件的客观量化 |
| GPS/SLAM | 空间定位 | 亚米级轨迹 | 行为-环境的精确对应 |
关键发现¶
- SLAM+GPS融合在GPS频繁丢失的热带城市环境中实现了可靠的连续轨迹重建
- AI视觉模型可自动提取微观BE特征(路面材质、宽度),替代人工实地审计
- 多模态融合的潜力:EDA峰值+注视宽散布在窄走廊中同时出现,可能反映认知负荷或感知风险增加
- 框架具有可扩展性:可集成到城市数字孪生中,支持多参与者热点分析
亮点与洞察¶
- 跨学科创新:将计算机视觉、机器人学(SLAM)、生理心理学和城市规划结合,是一种全新的研究范式。
- "体验式"城市评估替代"观察式"评估:传统方法从第三方视角评估城市空间,本文从使用者的第一人称体验出发,更贴近实际需求。
- 交互式仪表板原型是一个有价值的工具设计:研究人员和规划者可以按时间或距离导航,直观地将生理唤醒与特定BE元素关联。
- 关注脆弱群体体现了包容性设计理念:不是为"平均人"设计,而是为最需要帮助的人群收集数据。
局限与展望¶
- 仅有初步结果(概念验证),缺少统计关联分析和大样本验证
- 参与者样本小,未提供具体人数和统计显著性
- 缺少与传统方法(调查、GIS审计)的定量对比
- 隐私和伦理问题:在公共空间录制视频+眼动追踪可能面临伦理审查挑战
- 传感器负担:多个穿戴设备+跟拍研究员可能影响参与者的自然行为(霍桑效应)
- 路面材质分类的准确率未定量报告
- 计算成本可能较高:SLAM+多种AI模型的实时处理需求
相关工作与启发¶
- VINS-Fusion:视觉惯性SLAM算法,提供GPS失效环境下的局部精确轨迹
- Grounding DINO + SAM:零样本目标检测与分割的组合,用于路面区域提取
- Mapillary Vistas + Mask2Former:街景语义分割数据集和模型
- 启发:多模态传感在人因工程和无障碍设计领域有广泛应用前景。类似框架可推广到其他脆弱群体(视障人士、轮椅使用者)以及其他环境评估任务(工业安全、救灾路线评估)。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 多模态融合框架在适老化城市规划中的应用是全新的
- 实验充分度: ⭐⭐ — 仅有概念验证级别的初步结果,缺乏统计分析和大样本验证
- 写作质量: ⭐⭐⭐⭐ — 问题动机和框架描述清晰,图表直观
- 价值: ⭐⭐⭐ — 思路有启发性但实用性尚待验证,更偏向position paper
相关论文¶
- [ECCV 2024] LiveHPS++: Robust and Coherent Motion Capture in Dynamic Free Environment
- [AAAI 2026] LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
- [AAAI 2026] CaTFormer: Causal Temporal Transformer with Dynamic Contextual Fusion for Driving Intention Prediction
- [AAAI 2026] Understanding Dynamic Scenes in Egocentric 4D Point Clouds
- [AAAI 2026] Global-Lens Transformers: Adaptive Token Mixing for Dynamic Link Prediction