Adaptive Linguistic Prompting (ALP) Enhances Phishing Webpage Detection in Multimodal Large Language Models¶
会议: ACL 2025
arXiv: 2507.13357
代码: https://github.com/atharvab167/Adaptive-Linguistic-Prompting-ALP-Multimodal-LLM-Phishing-Detection
领域: 多模态VLM / AI安全
关键词: 钓鱼网页检测, 多模态LLM, few-shot prompting, GPT-4o, Gemini 1.5 Pro
一句话总结¶
提出 Adaptive Linguistic Prompting (ALP),一种 8-shot 结构化提示方法,引导多模态 LLM 从 HTML 文本、截图和 URL 三个维度联合推理,检测钓鱼网页,在 GPT-4o 上组合分析达到 F1=0.93,超过传统零样本基线。
研究背景与动机¶
- 领域现状:钓鱼攻击是重要的网络安全威胁,2024年仅被拦截的攻击就超过120万次。传统检测方法依赖启发式 URL 匹配、HTML 结构分析和黑名单机制。
- 现有痛点:传统方法对零日攻击和高级伪装页面效果很差;基于机器学习的方法面临对抗扰动和动态内容的挑战;基于计算机视觉的品牌识别方法需要持续重训练。
- 核心矛盾:多模态 LLM(如 GPT-4o)有强大的语义理解能力,但直接用零样本提示做钓鱼检测时,缺乏结构化的推理引导,无法充分利用多模态信息。Lee et al. 2024 的工作已经表明 LLM 做钓鱼检测优于传统方法,但其提示设计仍是简单的零样本品牌+域名验证。
- 本文要解决什么? 如何通过提示工程(不改模型)提升多模态 LLM 的钓鱼检测能力——特别是如何设计结构化的 few-shot 提示来引导 LLM 做分步语义推理。
- 切入角度:将 few-shot prompting 和 chain-of-thought 推理结合,设计模态专用的结构化提示模板,让 LLM 分别分析网页内容、截图视觉线索和 URL 结构。
- 核心idea一句话:用精心设计的 8-shot 提示(ALP)引导多模态 LLM 从文本欺骗模式、紧迫感线索和操纵性措辞三个角度做结构化推理,不需改模型就能大幅提升钓鱼检测。
方法详解¶
整体框架¶
系统包含两条并行分析管线和一个融合决策模块: - 输入:待检测网页的 HTML 内容、截图图片、嵌入的 URL 列表 - 管线1 - MWA (Multimodal Webpage Analysis):同时分析 HTML 文本和截图,通过 8-shot ALP 提示引导 LLM 评估品牌一致性、语言规范性和视觉可信度 - 管线2 - USA (URL Structure Analysis):提取页面中所有 URL,通过 8-shot ALP 提示引导 LLM 分析域名合法性、协议安全性和路径结构 - 融合决策:结合两条管线的输出做最终分类
关键设计¶
- MWA (多模态网页分析) 提示:
- 做什么:引导 LLM 同时分析 HTML 文本内容和网页截图,输出品牌识别、措辞分析、视觉分析、置信度评分和最终分类
- 核心思路:设计结构化的 8-shot 提示模板,每个示例都按 "品牌识别 → 措辞和语法分析 → 截图分析 → 关键指标 → 支撑证据 → 置信度 → 分类" 的步骤展示推理过程。LLM 看到这些示例后,学会对新网页做同样的分步分析
-
设计动机:零样本提示让 LLM 直接判断 phishing/benign 缺乏推理深度;通过 few-shot 示例展示结构化推理过程,让 LLM 关注品牌不一致、语言不规范、视觉伪装等细微线索
-
USA (URL 结构分析) 提示:
- 做什么:分析从 HTML 中提取的所有 URL,检测域名、协议、路径中的钓鱼指标
- 核心思路:同样用 8-shot 结构化提示,引导 LLM 分析域名合法性(是否为知名品牌)、是否使用 HTTPS、URL 路径是否包含可疑结构(如通用域名、欺骗性路径)
-
设计动机:URL 分析和内容分析是互补的——有些钓鱼页面视觉上做得很好但 URL 暴露了问题,反之亦然
-
"Suspicious-First" 策略:
- 做什么:在 USA 提示中加入"可疑优先"的风险导向指令,让 LLM 对不确定的案例倾向于判定为可疑
- 核心思路:简单地在提示中添加风险厌恶偏向的指令
- 设计动机:这个简单的提示修改将 GPT-4o 的 USA 准确率从 81% 提升到 91%,说明提示工程的影响可以和模型架构改进相当
融合决策策略¶
当 MWA 和 USA 结果一致时直接采用;不一致时,若 USA 判定为钓鱼或 MWA 置信度 > 8.5 则判定为钓鱼,否则判定为良性。8.5 阈值在训练集上通过平衡精确率和召回率确定。这种风险厌恶的融合策略优先考虑安全性。
实验关键数据¶
数据集¶
使用 Lee et al. (2024) 数据集:1607 个良性品牌和 289 个钓鱼品牌,每个品牌一张截图和一个 HTML JSON 文件。经过筛选保留 311 个良性品牌和全部 289 个钓鱼品牌。
主实验¶
| 模型 | 方法 | Precision | Recall | F1 |
|---|---|---|---|---|
| GPT-4o | Baseline (零样本) | 0.91 | 0.91 | 0.91 |
| GPT-4o | MWA (ALP) | 0.80 | 0.89 | 0.84 |
| GPT-4o | USA (ALP) | 0.91 | 0.91 | 0.91 |
| GPT-4o | Combined | 0.92 | 0.94 | 0.93 |
| Gemini 1.5 Pro | Baseline | 0.76 | 0.85 | 0.81 |
| Gemini 1.5 Pro | MWA (ALP) | 0.94 | 0.87 | 0.90 |
| Gemini 1.5 Pro | USA (ALP) | 0.88 | 0.85 | 0.87 |
| Gemini 1.5 Pro | Combined | 0.91 | 0.92 | 0.91 |
消融实验¶
| 配置 | F1 (GPT-4o) | 说明 |
|---|---|---|
| Combined (ALP) | 0.93 | 完整方法 |
| USA w/o suspicious-first | 0.81 | 去掉风险厌恶提示后 USA 大幅下降 |
| USA w/ suspicious-first | 0.91 | 加回后提升 10 个点 |
| Baseline (零样本) | 0.91 | Lee et al. 的品牌+域名验证 |
| MWA 单独 | 0.84 | 仅网页内容+截图分析 |
关键发现¶
- GPT-4o 在 URL 分析上更强,Gemini 1.5 Pro 在多模态网页分析上更强——理论上最优组合是 Gemini 做 MWA + GPT-4o 做 USA
- "suspicious-first" 这个简单的提示改动带来了 10% 的 F1 提升(0.81→0.91),说明提示工程的作用可能不亚于模型改进
- 融合两条管线比任何单一管线都好,因为 URL 分析和内容分析捕捉的是互补的钓鱼线索
亮点与洞察¶
- 提示工程的力量:不改模型只改提示就能获得显著提升,"suspicious-first" 策略仅一句话就带来 10% F1 提升,这是一个非常实用的发现
- 互补融合思路:将问题分解为两个独立的子分析(内容分析 vs URL 分析),再用简单规则融合,比端到端方法更可解释也更灵活
- 跨模型互补:不同 LLM 在不同模态上各有优势,可以构建混合系统
局限性 / 可改进方向¶
- 数据集规模偏小(600 个品牌),缺乏对新型钓鱼攻击和非英语内容的覆盖
- 依赖闭源商用 LLM(GPT-4o),推理成本高,难以大规模部署
- 融合策略过于简单(硬阈值 8.5),可以用加权概率或学习型融合替代
- 未测试对抗性规避策略(如 context-aware 改写)的鲁棒性
- 未与传统 ML 方法(非 Transformer 架构)做全面对比
相关工作与启发¶
- vs Lee et al. (2024):他们提出零样本品牌+域名验证的多模态 LLM 方法(baseline),本文在此基础上用 8-shot ALP 提示替换零样本提示,F1 从 0.91 提升到 0.93
- vs Koide et al. (2024) ChatSpamDetector:同样利用 LLM 做安全检测,但 ChatSpamDetector 针对邮件,本文针对网页且强调多模态融合
- vs 视觉方法 (PhishPedia等):视觉方法需要持续重训练来适应新品牌,而 LLM + 提示方法天然具有零样本泛化能力
评分¶
- 新颖性: ⭐⭐⭐ 核心贡献是提示设计,方法新颖性一般但实用性强
- 实验充分度: ⭐⭐⭐ 数据集规模偏小,缺少与更多 baseline 的对比和鲁棒性测试
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验描述详细,附录提供了完整的提示模板和输出示例
- 价值: ⭐⭐⭐ 实用性强,提示工程的发现(特别是 suspicious-first)有参考价值,但整体深度有限