PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits¶

会议: ICLR2026
arXiv: 2509.11362
代码: lokali/PersonaX
领域: causal_inference
关键词: multimodal dataset, behavior traits, Big Five, causal representation learning, LLM, identifiability

一句话总结¶

构建了 PersonaX 多模态数据集（含 LLM 推断的 Big Five 行为特质、面部嵌入和传记元数据），并提出两层分析框架：结构化独立性检验 + 非结构化因果表示学习（带可识别性理论保证），揭示跨模态因果结构。

背景与动机¶

理解人类行为特质（behavior traits）对人机交互、计算社会科学和个性化 AI 系统至关重要，但现有数据集很少同时提供行为描述符与面部属性、传记信息等互补模态
行为特质不同于心理学中的 personality（内在倾向），它是从公开信息中可观测到的外在行为模式，可伦理地大规模推断
LLM 的进步使得基于 Big Five 框架的行为特质评估在精心设计的 prompt 下具有可靠性，但缺乏系统性的跨模态和因果分析资源
现有多模态数据集（如 YouTube-Vlogs、MuPTA、MDPE）通常缺少显式的文本特质描述或跨模态解释框架

核心问题¶

如何构建大规模、多模态、隐私保护的行为特质数据集？
行为特质与面部属性、传记特征之间存在怎样的统计依赖关系？
如何从非结构化多模态数据中学习潜变量及其因果机制，并提供可识别性保证？

方法详解¶

数据集构建¶

PersonaX 包含两个互补数据集：

AthlePersona：从七大体育联赛（NBA、NFL、NHL、ATP、PGA、英超、德甲）官方网站收集 4181 名男性职业运动员的传记信息（姓名、出生日期、国籍）、体征（身高、体重）和面部图像。国籍被地理编码为经纬度坐标。

CelebPersona：基于 CelebA 数据集，将 9444 位公众人物的名字链接到 WikiData 实体以获取传记详情。从 CelebA 原始 40 个属性中保留了 10 个反映稳定外貌特征的属性（如 Big Nose、High Cheekbones），剔除短期变化属性（如 Heavy Makeup）。

每条记录整合三个组件： 1. 三个高性能 LLM 推断的行为特质文本描述与 Big Five 分数 2. 面部图像（以 1024 维嵌入释放）及属性标注 3. 结构化传记元数据

LLM 选择与 Prompt 设计¶

系统评估了十个 SOTA LLM，指标包括生成时间、缺失率、犹豫率、隐私保护、输出格式、上下文一致性、事实准确性
ChatGPT-4o 综合表现最优（OS=0.96），Gemini2.5-Pro 和 Llama-4 紧随其后
实验对比了数字/文本输出、3 级/5 级评分量表等 prompt 变体，3 级数字量表的变异性最小
最终选择 ChatGPT-4o-Latest、Gemini-2.5-Pro、Llama-4-Maverick 三个模型生成数据

隐私保护¶

不释放原始图像或文本。面部图像转为 1024 维 ImageBind 嵌入，文本转为 3584 维 gte-Qwen2 嵌入，都经过额外的可逆变换进行混淆。分类变量转为索引。

Level I：结构化数据的统计独立性检验¶

对 Big Five 特质分数去除 "0"（信息不足）后取中位数聚合
应用五种独立性检验方法：KCI、RCIT、HSIC（非参数）+ Chi-square、G-square（离散变量）
在 p<0.05 显著性水平下判定依赖关系

Level II：非结构化数据的因果表示学习（CRL）¶

因果模型：设 \(\mathbf{x} = [\mathbf{x}_1, \dots, \mathbf{x}_M]\) 为 M 个模态的观测，\(\mathbf{z} = [\mathbf{z}_1, \dots, \mathbf{z}_M]\) 为因果相关的潜变量，\(\mathbf{s}\) 为跨模态共享潜变量。数据生成过程包含： - 潜在因果关系：\(z_{m,i} = g_{z_{m,i}}(\text{Pa}(z_{m,i}), \mathbf{s}, \epsilon_{m,i})\) - 生成函数：\(\mathbf{x}_m = g_{\mathbf{x}_m}(\mathbf{z}_m, \boldsymbol{\eta}_m)\)

可识别性理论：在四个温和假设下，证明了多模态多测量设定下潜变量的可识别性——对于相同观测 \(\mathbf{x}\)，每个估计潜变量分量 \(\hat{z}_{m,i}\) 等价于真实值 \(z_{m,i}\) 至一个可逆映射。

网络训练：损失函数由三部分组成： - 重建损失 \(\mathcal{L}_{\text{Recon}}\)：MSE 重建各模态观测 - 独立性约束 \(\mathcal{L}_{\text{Ind}}\)：KL 散度对齐潜变量分布到各向同性高斯先验 - 稀疏正则 \(\mathcal{L}_{\text{Sp}}\)：L1 范数约束可学习邻接矩阵（通过 normalizing flows 实现）

总损失 \(\mathcal{L} = \alpha_{\text{Recon}} \mathcal{L}_{\text{Recon}} + \alpha_{\text{Ind}} \mathcal{L}_{\text{Ind}} + \alpha_{\text{Sp}} \mathcal{L}_{\text{Sp}}\)

实验关键数据¶

合成实验（Colored MNIST + Fashion MNIST）¶

方法	R²	MCC
BetaVAE	较低	较低
MCL	较低	较低
MMCRL	0.90	0.85
PersonaX（本文）	0.96	0.92

独立性检验发现¶

CelebPersona：性别和职业与几乎所有特质分数有强依赖关系；面部特征（如尖鼻、高颧弓）与特质分数显著关联
AthlePersona：出生年份和联赛归属是更强的依赖源；身高体重呈现一致但中等的关联
两个数据集中地理变量（经纬度）均表现出可比的中等依赖性

因果图分析（AthlePersona）¶

从真实数据中学到的因果图显示： - 共享因子 \(S_1\)（mindset）和 \(S_2\)（culture）之间存在双向关系 - 跨模态因果链路：自信（\(Z_{2,1}\)）→ 面部表情（\(Z_{1,4}\)）；情绪稳定性（\(Z_{2,3}\)）→ 仪容（\(Z_{1,2}\)） - 图像潜变量的顺序路径：肤色 → 吸引力 → 面部表情

亮点¶

首个将 LLM 推断行为特质与面部嵌入、传记元数据统一的大规模多模态数据集，填补了现有资源的空白
两层分析框架设计精巧：结构化层用统计检验揭示依赖关系，非结构化层用 CRL 学习因果机制，互为补充
提出的 CRL 方法在多模态多测量设定下有新的可识别性理论保证，扩展了已有理论
LLM 选择过程系统严谨，评估了十个模型的八个维度指标
隐私保护措施到位：不释放原始数据，仅释放嵌入+可逆变换

局限性 / 可改进方向¶

群体偏差：AthlePersona 仅含男性运动员，CelebPersona 偏向富裕高知名度个体，不具普遍代表性
缺乏时序稳定性：行为特质是动态的，但数据从静态公开信息推断，没有纵向追踪
LLM 推断的可靠性：尽管多模型投票提高了鲁棒性，LLM 对行为特质的评估仍然是主观的
未来可扩展更多数据源、纳入女性运动员和更多元化群体
因果图中潜变量的语义解释依赖独立性检验结果的后验引导，非完全自动化

与相关工作的对比¶

数据集	模态	行为特质	特质框架	因果分析
SALSA	视频+传感器	间接	无	无
YouTube-Vlogs	视频+音频	印象评分	Big Five	无
MuPTA	视频+音频+生理	有	Big Five	无
MDPE	多模态	人格+情感	Big Five	无
PersonaX	图像嵌入+文本嵌入+传记	LLM推断	Big Five	有（CRL+可识别性）

PersonaX 的独特之处在于：(1) 规模最大（9444+4181），(2) 唯一提供显式 LLM 推断的行为特质文本，(3) 唯一包含因果表示学习分析且有理论保证。

启发与关联¶

展示了 LLM 作为大规模行为评估工具的可行性与标准化方法，可推广到其他社会科学场景
多模态多测量 CRL 框架可应用于任何具有多视角多实例数据的场景（如医学影像的多次扫描）
隐私保护方案（嵌入+可逆变换）为敏感数据发布提供了实用范式
独立性检验揭示了名人和运动员的行为特质受不同信息通道影响的系统性差异，对个性化 AI 设计有启示

评分¶

新颖性: ⭐⭐⭐⭐ — 多模态行为特质数据集+CRL 新理论的组合具有原创性
实验充分度: ⭐⭐⭐⭐ — 合成+真实数据双重验证，独立性检验全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，两层分析框架层次分明
价值: ⭐⭐⭐⭐ — 数据集和方法对多模态因果推理社区有长期价值