EgoPrivacy: What Your First-Person Camera Says About You?¶

会议: ICML2025
arXiv: 2506.12258
代码: GitHub
领域: 隐私 / AI安全
关键词: egocentric vision, privacy benchmark, demographic attack, retrieval-augmented attack, contrastive learning

一句话总结¶

提出 EgoPrivacy——首个大规模第一人称视频隐私基准，定义三类隐私（人口统计/个体/情境）七大任务，并设计检索增强攻击 (RAA) 将 ego-to-exo 检索与分类联合，证明基础模型零样本即可以 70–80% 准确率推断佩戴者性别、种族等敏感属性。

研究背景与动机¶

问题来源：可穿戴相机（AR 眼镜、GoPro）日益普及，第一人称视频被持续采集用于活动识别、行为分析、生活日志等任务。已有隐私研究主要关注画面中出现的第三方面孔，但对相机佩戴者自身的隐私威胁几乎未被系统研究。
核心问题：仅从第一人称视频中能推测出佩戴者多少隐私？佩戴者的性别、种族、年龄、身份、所处场景与时间等信息是否可被还原？
现有差距：已有第一人称隐私数据集（FPSI、EVPR、IITMD）规模极小（6–32 人）、仅覆盖身份识别单一维度、无人口统计标注、无 OOD 测试集。
动机：系统定义第一人称视频隐私的攻击面并建立全面基准，量化不同能力攻击者的信息泄露程度，为后续隐私防御奠定基础。

方法详解¶

1. 隐私定义与任务体系¶

将佩戴者隐私分为三大类、七项任务：

隐私类别	任务	形式	评估指标
人口统计隐私	性别 / 种族 / 年龄分类	分类	Accuracy
个体隐私	ego-to-ego / ego-to-exo 身份检索	检索	HR@k
情境隐私	场景检索 / 时刻检索	检索	HR@k

人口统计隐私建模为分类问题：

\[\text{Acc}(\mathcal{D}; f) = \frac{1}{|\mathcal{D}|} \sum_{(\mathbf{x}, a) \in \mathcal{D}} \mathbb{1}[f(\mathbf{x}) = a]\]

个体 / 情境隐私建模为检索问题，以 Hit Rate@k 度量风险：

\[\text{HR@}k(\mathcal{D}; g) = \frac{1}{|\mathcal{D}|} \sum_{(\mathbf{x}, I) \in \mathcal{D}} \mathbb{1}[g^k(\mathbf{x}) \cap \mathcal{T}_I \neq \emptyset]\]

2. 威胁模型（Attack Capability）¶

定义四级递增攻击能力：

Capability ⓪ (Zero-shot)：攻击者无训练数据，直接使用基础模型零样本推断。
Capability ① (Fine-tuned)：攻击者可用带标注训练集微调模型。
Capability ② (Retrieval-Augmented)：攻击者拥有 ego-exo 配对训练集 + 外部第三人称视频池。
Capability ③ (Identity-level)：攻击者可判断两段 ego 视频是否属于同一身份。

3. Ego-Exo 联合嵌入¶

采用 Supervised Contrastive Learning (SupCon) 学习 ego-exo 联合嵌入空间：

\[L(g, g') = -\sum_{i=1}^{N} \frac{1}{|P(i)|} \sum_{k \in P(i)} \log \frac{\exp(\langle \mathbf{z}_i^E, \mathbf{z}_k^X \rangle / \tau)}{\sum_{j \in N(i)} \exp(\langle \mathbf{z}_i^E, \mathbf{z}_j^X \rangle / \tau)}\]

其中 \(P(i)\) 为正对集合（按隐私类型定义），\(N(i)\) 为负对集合，\(\tau\) 是温度系数。通过改变 \(P(i)\) 的定义统一个体隐私（同一佩戴者所有 exo 视频为正对）与情境隐私（同步录制的 exo 片段为正对）。

4. 检索增强攻击 (RAA)¶

核心思路："先检索，再预测"——利用 ego-to-exo 检索弥补第一人称视频对面部/身体遮挡的缺陷。

给定 ego 查询 \(\mathbf{x}^E\)，用 ego-exo 检索器 \(g\) 从外部 exo 池 \(\mathcal{D}^X\) 中取 Top-M 最相似片段 \(\{\mathbf{x}_{1:M}^X\}\)。
分别用 ego 分类器 \(f\) 和 exo 分类器 \(f'\) 对各输入做隐私属性预测。
通过投票聚合得到最终结果：

\[f^{\text{RAA}}(\mathbf{x}^E, \{\mathbf{x}_{1:M}^X\}) = \mathcal{A}\big(f(\mathbf{x}^E),\; f'(\mathbf{x}_1^X),\;\dots,\; f'(\mathbf{x}_M^X)\big)\]

聚合函数 \(\mathcal{A}\) 可为硬投票（majority voting）或软投票（加权 pooling）。

5. EgoPrivacy 基准构建¶

基于 Ego-Exo4D (5,625 clips, 839 人, 131 场景) + Charades-Ego (4,000 clips, 112 人) 构建。
人口统计标注通过 Amazon Mechanical Turk 对 exo 视频中可见佩戴者进行标注，标签集：Gender {Female, Male}、Race {Asian, Black, White}、Age {Young, Middle-aged, Senior}。
支持 ID (Ego-Exo4D train/test) 和 OOD (train=Ego-Exo4D, test=Charades-Ego) 两种评估。

实验关键数据¶

人口统计隐私攻击（OOD, Charades-Ego）¶

方法	Capability	Gender	Race	Age
Random Chance	—	50.00	33.33	33.33
Prior (多数类)	—	60.74	54.17	79.48
CLIP H/14 zero-shot (ego)	⓪	57.89	45.21	72.02
CLIP H/14 fine-tuned (ego)	①	68.87	70.92	79.73
CLIP H/14 + RAA	①+②	76.98 (+8.11)	71.92 (+1.00)	79.73
CLIP H/14 zero-shot + RAA	⓪+②	67.35 (+9.46)	60.98 (+15.77)	76.23 (+4.21)

关键发现： - 零样本基础模型对性别/种族/场景的推断准确率达 70–80%，远超随机基线。 - RAA 在零样本设置下对种族攻击准确率提升多达 +15.77%，性别 +9.46%。 - 微调后 ego 攻击已接近 exo 攻击水平，说明 ego 视频的"天然遮挡"保护有限。

个体与情境隐私¶

Ego-to-ego 身份检索：微调 CLIP 在 ID 评估中 HR@1 显著高于零样本，验证手势/环境线索足以暴露身份。
Ego-to-exo 身份检索：SupCon 训练后 HR@1 大幅提升，表明 ego-exo 跨视角身份关联可学习。
场景 / 时刻检索：基础模型零样本即具有较强场景匹配能力，微调进一步提升。

亮点与洞察¶

首个系统性 ego 隐私基准：将佩戴者隐私细化为三类七任务，比已有数据集（6–32 人）扩大到 839 人 / 131 场景，填补重要空白。
RAA 攻击策略新颖实用：模拟真实场景（监控摄像头与 ego 设备同时拍摄同一人），通过 ego-to-exo 检索桥接两个视角，无需直接人脸匹配即可显著提升攻击成功率。
零样本即高威胁：开源基础模型无任何额外数据即可恢复敏感人口统计属性，对隐私法规和设备设计敲响警钟。
统一公式化：用 SupCon 损失的正对定义变化统一个体/情境两大类检索任务，优雅简洁。

局限与展望¶

标签体系粗糙：性别仅 Male/Female，种族仅 Asian/Black/White（由标注者主观判断），年龄仅三档，遗漏大量多样性。
数据集偏差：Ego-Exo4D 以实验室/特定活动场景为主，Charades-Ego 限于家庭室内，缺少户外/城市/驾驶等高频 ego 场景。
仅评估攻击：未提出相应的防御方法或隐私保护策略（如差分隐私表征、对抗扰动），对应用落地的指导有限。
RAA 假设较强：要求攻击者拥有含目标身份的 exo 视频池，实际获取难度需进一步讨论。
静态帧采样：主要使用帧级特征，未充分利用时序动作/步态等动态隐私线索。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统化定义 ego 视频佩戴者隐私攻击面，RAA 策略新颖
实验充分度: ⭐⭐⭐⭐ — 七任务 × 四级威胁模型 × ID/OOD 全面实验，消融充分
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，公式化统一，图表丰富
价值: ⭐⭐⭐⭐ — 填补 ego 隐私研究空白，对可穿戴设备隐私设计和法规制定有重要参考意义