⚖️ 对齐/RLHF¶

📹 ICCV2025 · 2 篇论文解读

Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models: 本文提出 HIMRD，一种黑盒多模态越狱攻击方法，通过将恶意语义分散到多个模态来绕过单模态防护，并用启发式搜索策略寻找理解增强提示和诱导提示，在开源和闭源多模态大模型上分别达到约 90% 和 68% 的平均攻击成功率。
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization: 提出 MagicID 框架，通过构建身份偏好和动态偏好的混合视频对数据，并设计两阶段混合偏好优化（HPO）训练策略，首次将 DPO 应用于身份定制化视频生成，同时解决传统自重建训练导致的身份退化和动态减弱问题。