跳转至

👥 社会计算

🧠 NeurIPS2025 · 17 篇论文解读

A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings

提出 TiALD(Tigrinya Abusive Language Detection),首个面向 Tigrinya 低资源语言的大规模多任务基准数据集,包含 13,717 条 YouTube 评论的辱骂/情感/主题三任务联合标注,同时发现小型微调模型(TiRoBERTa, 125M)在所有任务上全面超越 GPT-4o 和 Claude Sonnet 3.7 等前沿 LLM。

Active Slice Discovery in Large Language Models

提出 Active Slice Discovery 问题框架,将主动学习引入 LLM 错误切片发现,利用不确定性采样 + LLM 内部表征(原始 embedding 或 SAE 特征)在仅使用 2-10% 标注的情况下达到接近全标注的切片检测精度。

Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in LLMs

提出 FaIRMaker 框架,通过"自动搜索+精化"范式先用梯度优化找到去偏见触发词(Fairwords),再训练 seq2seq 模型将其转化为可读指令,在开源和闭源 LLM 上有效缓解性别偏见同时保持甚至提升任务性能。

AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web

AVerImaTeC 构建了首个带完整证据标注的图文事实核查数据集——1297 条真实图文声明 + 5 阶段标注流水线(提取→QA 推理→充分性检查→迭代精炼→二次检查)+ 时间约束证据(防止时间泄露),基线系统在有 ground truth 证据时准确率 82%,但自动检索证据后降至 15-25%,揭示了图文核查的巨大挑战。

Concept-Level Explainability for Auditing & Steering LLM Responses

提出 ConceptX,一种基于概念级(而非 token 级)Shapley 归因的 LLM 可解释性方法,通过语义相似度而非 token 重合度来衡量输入概念对输出的影响,可用于审计偏见和通过 prompt 编辑引导 LLM 输出,在越狱防御中将攻击成功率从 0.463 降至 0.242。

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

DATE-LM构建了首个面向LLM的统一数据归因评估基准,通过训练数据选择、毒性过滤和事实归因三大应用驱动任务系统评估多种归因方法,发现无单一方法全面占优且简单基线在某些场景可媲美归因方法。

DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding

受深度优先搜索(DFS)算法启发,设计了 DeepTraverse 视觉骨干网络,通过参数共享的递归探索模块和自适应通道校准模块,在极少参数下实现高竞争力的图像分类性能。

Don't Let It Fade: Preserving Edits in Diffusion Language Models via Token Timestep Allocation

提出 Token Timestep Allocation (TTA-Diffusion),通过为每个 token 分配独立的去噪时间步来解决扩散语言模型中 classifier guidance 导致的 update-forgetting 问题,实现可控文本生成的稳定性和效率大幅提升。

Evaluating Multiple Models Using Labeled and Unlabeled Data

提出 SSME (Semi-Supervised Model Evaluation),利用少量标注数据和大量未标注数据,通过半监督混合模型估计多个分类器联合分布 \(P(y, \mathbf{s})\),实现精确的分类器性能评估,误差降低至仅用标注数据的 1/5。

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

提出 GraphKeeper 框架应对图域增量学习(Graph Domain-IL)中的灾难性遗忘,通过域特异性 LoRA 参数隔离 + 领域内/间解耦 + 基于岭回归的无偏差知识保存三组件,比次优方法提升 6.5%-16.6%,且可无缝集成图基础模型。

IF-GUIDE: Influence Function-Guided Detoxification of LLMs

提出 IF-Guide,利用影响函数在 token 粒度识别训练数据中的有毒内容,并通过惩罚式训练目标在预训练/微调阶段主动抑制模型学习有毒行为,显著优于 DPO 和 RAD 等被动对齐方法。

Noise-Robustness Through Noise: A Framework Combining Asymmetric LoRA with Poisoning MoE

提出 LoPE,在非对称 LoRA 架构中设置专门的"中毒专家"接收注入噪声,推理时屏蔽该专家,仅通过正常专家输出实现噪声鲁棒——以噪声对抗噪声,完全无需数据清洗。

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

本文提出 OS-Harm,首个面向通用计算机使用 Agent(非仅浏览器)的安全性 benchmark,覆盖用户恶意使用、Prompt 注入攻击、模型自身失误三类风险共 150 个任务,评测发现前沿模型(o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro 等)普遍直接服从有害指令(最高 70% 不安全率),且对基础 prompt 注入有 20% 的服从率。

Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents

提出 Policy-as-Prompt 框架,通过两阶段端到端流水线——策略树生成(POLICY-TREE-GEN)和策略即提示生成(POLICY-AS-PROMPT-GEN)——将团队已有的非结构化设计文档(PRD、TDD、代码)自动转换为可运行时执行的策略护栏,使用轻量级 LLM 作为合规"法官",在 HR 和 SOC 应用中实现 70-73% 的输入/输出分类准确率。

Position Paper: If Innovation in AI Systematically Violates Fundamental Rights, Is It Innovation at All?

本文挑战"监管与创新对立"的固有信念,通过制药、航空、福利系统的历史类比和 Collingridge 困境分析论证良好设计的监管是创新的基础而非阻碍,并以 EU AI Act 的监管沙盒、中小企业支持等机制为范例展示监管如何加速而非延缓负责任的技术进步。

Precise Information Control in Long-Form Text Generation

提出Precise Information Control (PIC)任务——要求LLM生成的长文严格基于给定声明集合(不遗漏不添加),构建PIC-Bench评测8个任务发现SOTA模型70%以上生成包含忠实性幻觉,通过弱监督偏好数据构建+DPO训练的PIC-LM将8B模型F1从69.1%提升至91.0%。

SLAyiNG: Towards Queer Language Processing

构建了首个显式标注的酷儿俚语(queer slang)数据集 SLAyiNG,包含 695 个术语和近 20 万条使用实例,并通过人机标注一致性实验(Krippendorff's α=0.746)表明推理模型可用于预筛选但仍需社区驱动的专家标注。