⚖️ 对齐/RLHF¶
📹 ICCV2025 · 2 篇论文解读
- Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models
-
本文提出 HIMRD,一种黑盒多模态越狱攻击方法,通过将恶意语义分散到多个模态来绕过单模态防护,并用启发式搜索策略寻找理解增强提示和诱导提示,在开源和闭源多模态大模型上分别达到约 90% 和 68% 的平均攻击成功率。
- MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
-
提出 MagicID 框架,通过构建身份偏好和动态偏好的混合视频对数据,并设计两阶段混合偏好优化(HPO)训练策略,首次将 DPO 应用于身份定制化视频生成,同时解决传统自重建训练导致的身份退化和动态减弱问题。