跳转至

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

日期: 2026-03-09
arXiv: 2603.08174
代码: 无
领域: 多模态/VLM
关键词: electromagnetic signals, multimodal LLM, low-SNR robustness, knowledge distillation, IQ signals

一句话总结

构建电磁(EM)信号领域的完整 MLLM 基础设施:EM-100k 大规模数据集(10万信号-文本对)+ EM-Bench 评估基准(14个子任务4200 QA 对)+ MERLIN 两阶段训练框架(基础预训练 + 知识蒸馏增强低信噪比鲁棒性),通过 Denoising Subspace Module 将低 SNR 特征投射到干净子空间。

研究背景与动机

  1. 领域现状: MLLM 在视觉-语言领域成功后,电磁信号(雷达/通信/导航)领域也开始探索将 IQ 信号与 LLM 对接。现有方法(RadioLLM/Spectrum-LLM)多采用流水线或任务特定架构。

  2. 现有痛点: (a) 高质量 EM 信号-文本配对数据极度稀缺(军事/保密性质);(b) 缺少标准化评估基准——无法公平比较不同模型;(c) 低 SNR 环境下(噪声功率超过信号功率,SNR < 0 dB)模型性能急剧崩溃。

  3. 核心矛盾: 低 SNR 下特征坍缩——不同类别信号的 embedding 高度重叠,语义模糊,简单增加低 SNR 训练数据无法解决。实验发现将低 SNR embedding 线性插值到高 SNR 版本能大幅恢复性能 → 问题在特征层面而非数据层面。

  4. 核心 idea: 用知识蒸馏,让处理低 SNR 信号的学生网络学习模仿处理高 SNR 信号的教师网络的特征表示。

方法详解

整体框架

Stage 1(基础预训练): EMind 信号编码器 + 2层 MLP 投影器 + Qwen3-4B LLM → 在 EM-100k 上多任务指令微调。Stage 2(低 SNR 增强): 冻结 Stage 1 模型作为 Teacher(输入高 SNR)→ 复制为可训练 Student(输入低 SNR)→ 三重损失蒸馏。

关键设计

  1. EM-100k 数据集:

    • 10万条信号-文本指令微调样本,覆盖调制识别、参数估计、协议识别、干扰检测等
    • 数据来源:开源数据集 + 专业仿真 + 真实采集
    • 底层数据池:3500 万 IQ 信号样本,统一 20MHz 采样率、-20~20 dB SNR 分布
  2. EM-Bench 评估基准:

    • 3 级层次:2 个 L-1(感知/推理)→ 4 个 L-2 → 14 个 L-3 子任务
    • 4200 条专家验证 QA 对(每子任务 300 条)
    • 感知任务:单选题(调制分类/参数估计/干扰识别/片段检测)
    • 推理任务:开放式问答(策略生成——干扰/抗干扰策略)
  3. MERLIN 知识蒸馏框架:

    • Teacher(冻结)接收高 SNR 信号,Student(可训练)接收低 SNR 信号
    • 三重损失:\(\mathcal{L} = \mathcal{L}_{task} + \lambda_{logits}\mathcal{L}_{logits} + \lambda_{feat}\mathcal{L}_{feat}\)
    • 设计动机:低 SNR 特征坍缩是根本原因,需要在特征空间直接纠正
  4. Denoising Subspace Module (DSM):

    • 做什么:将学生的噪声 embedding 投射到干净信号子空间
    • 核心思路:学习投影矩阵 \(P = UU^T\)\(\Phi(f_{Student}) = P f_{Student}\)
    • 假设信号和噪声子空间近似正交,投影有效过滤噪声分量
    • 设计动机:直接对齐噪声特征和干净特征不稳定,DSM 提供了"软着陆"——先去噪再对齐

训练策略

  • AdamW 优化器 + cosine LR scheduler
  • 8 epochs/stage,batch size 256,lr 5e-5
  • 8×A100 80GB
  • Stage 2 训练数据:高 SNR 信号加高斯噪声生成低 SNR 配对 + 原始数据回放

实验关键数据

主实验(EM-Bench 整体性能)

模型 感知 Avg Acc 推理 Avg Score 低 SNR (-20~0dB)
RadioLLM 45.2% 32.1 23.8%
GPT-4o (zero-shot) 38.7% 41.5 28.2%
MERLIN (Stage 1 only) 68.5% 55.3 41.2%
MERLIN (Full) 71.3% 58.7 59.8%

消融实验

配置 低 SNR 感知 Acc 说明
Stage 1 only 41.2% 基础预训练
+ 更多低 SNR 训练数据 44.5% 数据级方案收效甚微
+ Logit 蒸馏 only 49.1% 有帮助但不够
+ Feature 蒸馏 (无 DSM) 52.3% 直接对齐不稳定
+ Feature 蒸馏 (有 DSM) 59.8% DSM 投影大幅提升

关键发现

  • 增加低 SNR 训练数据仅提升 +3.3%,但 MERLIN 蒸馏提升 +18.6%,证明了特征级方案远优于数据级
  • DSM 比直接特征对齐多提升 +7.5%,投影到信号子空间确实有效
  • 低 SNR embedding 可视化:蒸馏前不同类别高度重叠,蒸馏后明显分开

亮点与洞察

  • 完整生态系统: 数据集+benchmark+模型三位一体,填补了 EM MLLM 的整个基础设施空白
  • "特征坍缩"问题诊断精准: 从数据级→特征级的分析路径严谨,线性插值实验提供了直观证据
  • DSM 的信号/噪声子空间分解: 将信号处理的经典思想(子空间分解)融入深度学习蒸馏,跨领域融合
  • EM-Bench 评估体系: 14 子任务覆盖感知→推理全链路,是 EM 领域的 "ImageNet + MMLU"

局限性 / 可改进方向

  • IQ 信号的表征方式较固定(1024 采样点),对变长信号不友好
  • DSM 的正交子空间假设在实际强干扰场景下可能不成立
  • 仅用 Qwen3-4B 作为 LLM backbone,更大模型的效果未探索
  • 策略生成(推理任务)的评估依赖 LLM-as-judge,主观性较强

相关工作与启发

  • vs RadioLLM: Q-Former 架构,非原生 MLLM 范式,泛化受限
  • vs 图像去噪方法: MERLIN 借鉴了图像增强中的特征级去噪思路,但适配到了 EM 信号域
  • vs EEG MLLM: 类似的信号-文本对齐挑战,可能互相借鉴

评分

  • 新颖性: ⭐⭐⭐⭐ 三位一体贡献(数据+benchmark+模型),DSM 设计有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 14 子任务全面评估 + 详细消融 + SNR 灵敏度分析
  • 写作质量: ⭐⭐⭐⭐ 动机分析到位,实验设计严谨
  • 价值: ⭐⭐⭐⭐⭐ 电磁信号 MLLM 的里程碑式工作