Quantifying Misattribution Unfairness in Authorship Attribution¶

会议: ACL 2025
arXiv: 2506.02321
代码: 无
领域: AI安全
关键词: 作者归因、公平性、错误归因、嵌入分布、排名偏差

一句话总结¶

本文提出MAUI_k指标量化作者归因系统中"错误归因不公平性"——某些作者系统性地更容易被误判为可疑作者，并发现这种不公平与作者嵌入在向量空间中距质心的距离高度相关。

领域现状：作者归因（authorship attribution）在法庭取证、文学分析等场景中广泛使用。needle-in-the-haystack是主流范式：从候选作者库（haystack）中找出某篇匿名文本最可能的作者。
核心矛盾：现有评估指标（MRR、R@k）只关注"能否正确找到真正作者"，完全忽视了"其他无辜作者是否会被不公平地高排名"。在法庭场景中，即使只是被列入嫌疑人短名单，都可能带来严重后果（被调查、被审讯等）。
公平性问题：某些作者是否会系统性地在不相关查询中被排在前列，从而承担不成比例的"被误判"风险？
核心idea：定义"误归因不公平指数"MAUI_k，基于在随机排列（无偏基线）下每个作者进入top-k的期望次数 \(E_k\)，量化模型超出期望的程度。

MAUI_k指标 (Misattribution Unfairness Index)
- 无偏基线：在随机排列中，每位作者被排在top-k的期望次数为 \(E_k = \lceil \frac{k}{N_h} \times N_q \rceil\)
- 定义：\(\text{MAUI}_k = \frac{\sum_{j=1}^{N_h} \max(0, c_j^k - E_k)}{k \times (N_q - E_k)}\)
- \(c_j^k\)：作者 \(a_j\) 实际被排在top-k的次数
- 归一化到[0,1]，0最公平，1最不公平
- 分母为最坏情况（同k个作者总被排在top-k）
嵌入质心距离分析
- 计算所有haystack作者嵌入的质心（均值向量）
- 每位作者到质心的距离：\(1 - \cos(\text{embedding}_j, \text{centroid})\)
- 绘制"平均排名 vs 距质心距离"散点图
MRR与距质心距离的假设检验
- H1：高MRR作者比低MRR作者距质心更远
- H2：高MRR作者比随机子集距质心更远
- H3：低MRR作者比随机子集距质心更近
- 使用Mann-Whitney U检验（非参数，不假设正态性）

本文是评估/分析工作，不涉及新的训练。仅MPNet_AR进行了作者表示微调： - 使用cached multiple-negative ranking loss - 冻结12层中前8层，学习率5e-5，batch size 200，训练5000步

模型	Reddit R@8	Reddit MRR	Blogs R@8	Blogs MRR
SBERT	0.15	0.10	0.61	0.48
LUAR	0.82	0.71	0.97	0.90
MPNet_AR	0.40	0.30	0.96	0.88
Wegmann	0.08	0.05	0.45	0.32
StyleDist.	0.09	0.06	0.68	0.55

模型	Reddit MAUI_5	Reddit MAUI_10	Blogs MAUI_5	Blogs MAUI_10
SBERT	0.20	0.31	0.24	0.36
LUAR	0.06	0.12	0.15	0.26
MPNet_AR	0.09	0.17	0.12	0.23
Wegmann	0.03	0.09	0.06	0.14
StyleDist.	0.07	0.15	0.11	0.22