ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework¶

会议: ICLR 2026
arXiv: 2603.07946
代码: https://github.com/deepkashiwa20/ELLMob
领域: LLM/NLP
关键词: human mobility generation, event-driven, LLM, self-alignment, Fuzzy-Trace Theory

一句话总结¶

提出 ELLMob，一个基于模糊痕迹理论（FTT）的自对齐 LLM 框架，通过提取并迭代对齐"习惯模式要旨"与"事件约束要旨"来生成兼顾日常规律与事件响应的人类移动轨迹。

研究背景与动机¶

人类移动轨迹生成旨在合成逼真的时空移动数据，广泛应用于城市规划、交通管理和公共卫生领域。现有 LLM 方法在生成常规轨迹时表现出色，但面对大规模社会事件（如台风、疫情、奥运会）时存在两个关键短板：

数据缺口：缺乏事件标注的移动数据集，导致现有模型在非常规场景下的可靠性无法验证
决策冲突无法调和：事件期间，人类移动是习惯规律与事件约束的"竞争"结果——例如台风期间人们仍需去上班（习惯）但会避开沿海区域（事件约束），现有方法要么完全遵循习惯模式，要么被事件约束主导

核心洞察来自认知心理学的模糊痕迹理论（FTT）：人类在不确定条件下的决策不是基于精确概率，而是基于信息的"要旨"（gist, 即核心含义）。例如，逃离海啸不是因为精确计算了15%的概率，而是因为"风险很高"这个要旨。

方法详解¶

整体框架¶

ELLMob 包含三个核心模块：

事件模式构建（Event Schema Construction）：将非结构化事件描述转化为结构化表示
轨迹生成（Trajectory Generation）：基于用户历史和事件上下文生成候选轨迹
基于反思的对齐（Reflection-based Alignment）：通过要旨提取和迭代对齐调和冲突

关键设计¶

事件模式构建：将原始事件文本（新闻报道、政策文件等）通过 LLM 转化为四维度结构化表示： - 事件概况（类型、名称、时间、影响区域） - 强度与规模（风速、降雨量等量化指标） - 基础设施影响（交通、公共场所运营状态） - 官方指令（政府命令、出行建议及适用范围）

三类要旨提取（核心创新）： - 习惯要旨（Pattern Gist）：从用户历史轨迹中提炼核心行为模式、惯性锚点（如每晚回家）、脆弱依赖点（如依赖某条可能停运的地铁线路） - 事件要旨（Event Gist）：从事件上下文提炼主要影响意图、行为暗示（如避难远离海岸）、风险收益评估 - 行动要旨（Action Gist）：从 LLM 生成的候选轨迹中提炼主要目的、习惯遵循度、事件合规度

反思对齐机制（非通用纠错，而是冲突调和）： - 对齐审计：沿两个维度检验候选轨迹——内部对齐（是否反映用户习惯模式）和外部对齐（是否合理响应事件约束），仅当两者都满足时接受 - 纠正性精炼：若审计失败，将具体失败原因反馈给轨迹生成器，重新生成修正版本 - 最多迭代 \(K=3\) 次；若仍未通过则接受缓冲区中最后可用的轨迹并报告未满足约束

数据集构建¶

构建了首个事件标注移动数据集，覆盖东京都市圈 1100 名用户，包含： - 台风海贝思（2019.10.12-13）：短期自然灾害 - COVID-19 疫情（2020.04.07-13）：公共卫生紧急事件 - 东京 2021 奥运会（2021.07.23-29）：疫情期间的大型赛事 - 正常时期（2019.09.01-30）：基线对比

数据来源为 Twitter 和 Foursquare 签到记录，包含时间、地理坐标、场所类别、评论等多维度信息。

损失函数 / 训练策略¶

ELLMob 不涉及模型训练，采用 GPT-4o-mini 作为推理引擎： - 温度 0.1，Top-p=1，10 分钟时间分辨率 - 网格大小 \(S=10\)，最大对齐迭代 \(K=3\) - 评估使用 JSD（Jensen-Shannon Divergence）度量生成与真实分布的差异

实验关键数据¶

主实验¶

使用 JSD 在四个维度上评估（↓ 越低越好）：

方法	台风 SI↓	台风 SD↓	COVID SI↓	COVID SD↓	奥运 SI↓	奥运 SD↓
DeepMove	0.1697	0.0826	0.1838	0.0834	0.1667	0.0492
LLMOB	0.0949	0.1195	0.1013	0.1051	0.0973	0.0274
LLM-Move	0.1267	0.0392	0.1408	0.0567	0.1967	0.0298
ELLMob	0.0642	0.0200	0.1003	0.0444	0.0617	0.0061

ELLMob 在所有事件场景中全面领先，台风场景 SI 提升 32.3%，COVID 场景 SD 提升 16.5%，总体平均超越最强基线 46.9%。

消融实验¶

变体	台风 SI↓	COVID SI↓	奥运 SI↓	说明
w/o I.A.&E.A.	0.1304	0.2331	0.1465	去掉全部对齐
w/o I.A.	0.0835	0.1235	0.1355	仅去内部对齐
w/o E.A.	0.0680	0.2237	0.1392	仅去外部对齐
w/o Eve. Ext.	0.0736	0.2037	0.0686	去掉事件模式
ELLMob	0.0642	0.1003	0.0617	完整模型

关键发现：去掉外部对齐在 COVID 场景下 SI 恶化 132.4%，说明该模块在需要显著偏离习惯的场景中至关重要。

关键发现¶

LLM 方法普遍优于传统深度学习：在空间一致性指标（SD、SGD）上优势明显，得益于事件上下文整合能力
现有 LLM 方法的两类失败模式：要么默认遵循习惯模式（LLM-Move、LLMOB），要么过度纠偏（LLM-ZS 完全抑制社交活动）
双重对齐缺一不可：内部对齐提供基础合理性，外部对齐提供场景特定纠偏；两者作用方向不同但互补
灾害场景应用：在识别台风期间"活跃用户"的二分类任务中，ELLMob 达到最高 F1-Score，召回率 59.3%

亮点与洞察¶

认知理论驱动的系统设计：FTT 不仅是事后解释，而是从架构设计层面指导了多要旨决策框架、统一要旨空间和可解释属性的选择
问题定义的贡献：首次定义了"事件驱动的人类移动生成"任务，并提供首个多事件标注数据集
自对齐范式的创新：将通用 LLM 自对齐从"纠错"转变为"冲突调和"，更符合事件移动场景的本质
实际价值明确：对应急响应规划、交通管理等场景有直接应用价值

局限性 / 可改进方向¶

地理范围有限：仅在东京都市圈验证，虽补充了大阪实验但全球泛化性待考察
数据来源偏差：基于 Twitter/Foursquare 签到数据，可能存在用户群体偏差
事件类型有限：仅覆盖三类事件，对于战争、经济危机等其他突发事件的效果未知
推理成本：迭代对齐需要多轮 LLM 调用，尽管 K=3 已做了权衡，但对大规模轨迹生成仍是瓶颈
时间粒度固定：10 分钟分辨率可能无法捕捉更细粒度的行为变化

评分¶

维度	分数 (1-5)
创新性	4.5
理论深度	3.5
实验充分性	4.0
写作质量	4.0
实用价值	4.0
总分	4.0