ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT¶
会议: ACL 2025
arXiv: 2506.04929
代码: 有(数据集)
领域: 机器翻译 / 电商 NLP
关键词: 多模态机器翻译, 电商翻译, 上下文感知, 低资源语言对, 数据集
一句话总结¶
构建了 ConECT——首个捷克-波兰电商多模态翻译数据集(11,400 句对 + 产品图片 + 类目路径),通过 VLM 端到端翻译、NMT+类目路径前缀、NMT+图像描述前缀三条技术路线的系统对比,发现结构化类目上下文能稳定提升翻译质量(COMET +0.005),而合成图像描述以级联方式注入反而严重损害翻译性能(COMET 暴跌 0.11+)。
研究背景与动机¶
领域现状:神经机器翻译(NMT)在通用领域已经借助 Transformer 结构取得了接近人类水平的表现,而多模态机器翻译(MMT)把图像等视觉信息融入翻译流程,在 WMT 2016-2018 共享任务和 Multi30K 等基准上展示了辅助消歧的潜力。近年来 VLM(如 PaliGemma)的发展进一步让端到端的图文翻译成为可能。
现有痛点:电商场景是上下文感知翻译的天然试验田——产品名称短小精悍且术语密集、描述充斥领域专有词汇,同时天然附带产品图片和层级类目信息。然而现有 MMT 研究几乎全部围绕 Multi30K 等通用数据集展开,缺少面向电商领域的高质量多模态平行语料。更棘手的是,高质量图文对齐训练数据仅覆盖平行语料的极小比例,低资源语言对(如捷克-波兰)几乎零覆盖。
核心矛盾:电商翻译中的歧义消解确实需要额外上下文信息(图片、类目),但:(1) 缺少领域内可控的多模态测试集来公平比较不同上下文融入策略;(2) 不清楚视觉信息在真实电商翻译中到底贡献了多少——是真正帮助消歧还是仅充当噪声。
本文目标 两个核心问题:① 构建一个高质量的电商多模态翻译数据集填补资源空白;② 在数据集上系统评估三种上下文整合策略(VLM 端到端、类目路径前缀、图像描述前缀),量化各类上下文信息对翻译质量的影响。
切入角度:作者来自 Allegro.com(波兰最大电商平台),拥有大规模真实产品数据的天然优势。他们以捷克-波兰这一低资源但地理邻近的语言对为切入,利用商家在两国平台同时上架的产品作为天然平行语料源,搭配专业翻译人员进行质量校准。
核心 idea:构建一个产品图片+类目路径+三类文本对齐的电商翻译数据集,通过严格对照实验证明结构化上下文(类目路径)优于非结构化上下文(合成图像描述)。
方法详解¶
整体框架¶
论文设计了三条平行的技术路线来对比"如何把额外上下文融入翻译":输入端统一是捷克语电商文本(产品名称 / 产品描述 / 促销标题),输出端统一是波兰语翻译。三条路线分别是:(1) VLM(PaliGemma-3b)接收图片+文本端到端翻译;(2) NMT(Transformer big)在源文本前拼接类目路径前缀;(3) NMT 在源文本前拼接由 VLM 预先生成的图像描述前缀。每条路线都设置了有/无上下文的对照组,确保观测到的差异完全来自上下文信息本身。
关键设计¶
-
ConECT 数据集构建流程:
- 功能:提供首个捷克-波兰电商多模态翻译基准,涵盖产品名称(4,691 句)、产品描述(3,680 句)、促销标题(1,924 句)三类文本,每条样本对齐一张主产品图片和类目路径
- 核心思路:从 allegro.pl 平台提取波兰语产品文本,由专业翻译人员手动翻译为捷克语并二次审核。训练集则利用 allegro.pl 和 mall.cz 两个平台上同一商品的跨语言描述,通过 language-agnostic BERT 句子嵌入对齐句子级平行对,生成 23 万句对。此外额外采集 44 万波兰语产品名+图片,用反向翻译合成捷克语端,构建 VLM 训练所需的图文对齐数据
- 设计动机:现有 MMT 数据集(如 Multi30K)是通用图片描述,不含电商术语和类目元数据。ConECT 的三类文本覆盖了电商翻译中从短文本(产品名约 7.4 词)到长文本(描述约 10.6 词)的多样性,同时类目路径提供了层级结构化的领域信号
-
VLM 端到端翻译 + 真/黑图片消融:
- 功能:评估视觉信息对翻译质量的真实贡献
- 核心思路:基于 PaliGemma-3b-pt-224 进行 LoRA 微调(rank=8, alpha=8),设计 2×2 实验矩阵——训练和推理各自使用真实产品图片或全黑图片,组合出 4 种条件。如果模型只是学到了"有图无图"的偏差而非真正利用视觉内容,那在推理时换黑图应该不影响性能;反之性能下降说明视觉信息确实被利用
- 设计动机:直接比较 VLM vs NMT 不公平(模型大小、训练数据不同),但同一个 VLM 在真/黑图片间的性能差异可以干净地隔离出视觉贡献。这避免了 MMT 社区长期存在的"模型到底有没有看图"的质疑
-
NMT 上下文前缀注入机制:
- 功能:在不改变模型架构的前提下,将类目路径或图像描述作为额外上下文注入文本翻译模型
- 核心思路:类目路径用特殊标记
<SC>...<EC>包裹后拼接在源语言句子前面(如<SC> Sport <SEP> Rowery <SEP> Opony <EC> 原文),图像描述类似地用<SD>...<ED>包裹。基线 NMT 使用 Transformer big 架构,53M 句对预训练,然后在加入上下文前缀的数据上微调。为保证公平性,每种上下文实验都额外训练一个"数据量相同但去除前缀"的对照组,学习率统一为 5e-6,数据中混入 7M 无上下文句对防止模型过度依赖前缀 - 设计动机:前缀注入是最轻量的上下文整合方式,无需修改编码器-解码器架构,因此可以直接复用已有的 NMT 基线权重进行微调。同时对照组的存在确保性能差异不来自更多微调数据,而确实来自上下文信号
损失函数 / 训练策略¶
VLM 训练采用学习率 1e-4、batch size 16、4 个 epoch,在单张 A100 上完成。NMT 基线在 4 块 A100 上训练,使用 32K 共享词表和 chrF 早停策略。微调阶段所有 NMT 变体统一使用 5e-6 学习率。训练数据方面,类目路径实验使用原始 23 万平行句 + 各 7M 反向翻译的产品名和描述(带类目路径)+ 7M 无类目句子;图像描述实验使用上述图文数据(由 PaliGemma 生成捷克语描述后注入)+ 70 万无描述句子。
实验关键数据¶
主实验(ConECT 测试集)¶
| 模型 | 产品名 chrF | 促销标题 chrF | 产品描述 chrF | 全集 chrF | 全集 COMET |
|---|---|---|---|---|---|
| NLLB-600M(零样本) | 48.46 | 38.01 | 48.50 | 46.85 | 0.7288 |
| PaliGemma(真图训练+真图推理) | 83.48 | 79.41 | 61.92 | 72.31 | 0.9152 |
| PaliGemma(真图训练+黑图推理) | 81.36 | 77.10 | 61.75 | 71.12 | 0.9095 |
| PaliGemma(黑图训练+黑图推理) | 82.49 | 77.97 | 60.87 | 71.24 | 0.9091 |
| NMT 基线 | 84.83 | 83.73 | 70.76 | 77.74 | 0.9311 |
| NMT + 无类目对照 | 85.27 | 83.66 | 72.78 | 78.87 | 0.9354 |
| NMT + 类目路径 | 85.51 | 83.73 | 71.95 | 78.56 | 0.9362 |
| NMT + 无描述对照 | 85.10 | 83.99 | 70.81 | 77.90 | 0.9341 |
| NMT + 图像描述 | 83.25 | 82.63 | 48.26 | 65.97 | 0.8219 |
上下文贡献量化分析¶
| 对比条件 | 产品名 chrF Δ | 全集 COMET Δ | 分析 |
|---|---|---|---|
| VLM 真图 vs 全黑图(训练+推理) | +0.99 | +0.0061 | 视觉信息有正向贡献但幅度有限 |
| VLM 真图训练→真图推理 vs 真图训练→黑图推理 | +2.12 | +0.0086 | 推理时真图帮助更大 |
| NMT 有类目 vs 无类目(对照组) | +0.24 | +0.0008 | 类目路径贡献稳定但较小 |
| NMT 有描述 vs 无描述(对照组) | −1.85 | −0.1122 | 合成图像描述严重损害翻译 |
| NMT 基线 vs PaliGemma 最佳(产品描述) | +8.84 | +0.0159 | NMT 在长文本上大幅领先 VLM |
关键发现¶
- VLM 确实利用了视觉信息但收益有限:真实图片训练+推理 vs 全黑图在产品名上 chrF 提升约 1 点,在促销标题上约 1.4 点。然而在产品描述(更长的文本)上差异极小,说明 PaliGemma-3b 的上下文窗口和参数量限制了其处理长文本的能力
- 类目路径是最可靠的上下文信号:COMET 在所有三个子集上均有正增益,且不会引入噪声。产品名上 chrF 提升最显著(+0.24),因为短文本的歧义性更高,层级类目提供的领域信号更关键
- 合成图像描述灾难性失败:产品描述子集上 chrF 从 70.81 暴跌到 48.26(下降 22.55),整体 COMET 从 0.9341 骤降到 0.8219。原因是 PaliGemma 生成的图像描述质量不高,合成噪声通过前缀被放大传播到翻译输出
- NMT 在产品描述上全面碾压 VLM:基线 NMT chrF=70.76 vs PaliGemma 最佳 61.92,差距近 9 个点。NMT 的 53M 句对训练带来的语言模型能力在长文本翻译中优势明显
亮点与洞察¶
- 真/黑图片消融设计极其巧妙:用全黑图片替代真实图片并交叉组合训练/推理,干净地隔离了"视觉信息到底有没有被利用"这个 MMT 社区的核心争议问题,避免了模型容量、训练数据等混杂因素
- 负面结果的科学价值:合成图像描述级联注入 NMT 的惨烈失败,提醒社区不能天真地用 VLM 生成图像描述再塞进文本模型——信息转换过程中的噪声累积远超上下文收益
- 前缀注入的极简设计:不修改架构、只用特殊标记包裹上下文拼接到源文本前面,是一种可以零成本复用到任何 seq2seq 模型的上下文整合范式。类目路径的正收益证明了结构化元数据的价值
局限与展望¶
- 测试集规模有限且训练高度依赖合成数据:测试集约 10K 句对,训练用到 7M+ 反向翻译数据,合成数据的领域分布偏移可能影响实验结论的外推性
- 上下文并非总是需要:很多产品名和描述本身无歧义,此时额外上下文贡献为零甚至负。论文未分析"上下文真正帮助翻译的比例有多高",缺少样本级分析
- 图像描述生成方式过于粗糙:只用 PaliGemma 默认 prompt 生成捷克语描述,未尝试更有针对性的 prompt(如"描述产品材质和用途")或多轮生成过滤低质量描述
- 单一低资源语言对:仅测试 cs→pl,无法确认结论对高资源或语系更远的语言对是否成立
- VLM 选型局限:PaliGemma-3b 参数量较小,更大的 VLM(如 InternVL2、Qwen-VL)可能在长文本翻译上表现更好,但论文未做对比
相关工作与启发¶
- vs Multi30K / WMT MMT 共享任务:Multi30K 是通用图片描述的三语数据集,缺少电商领域特性(术语、类目层级、促销文体)。ConECT 填补了领域内可控的电商 MMT 基准空白
- vs Song et al. (2021):他们提出大规模电商跨模态预训练框架(包含双语文本+图像联合预训练任务),但面向高资源语言对。ConECT 聚焦低资源 cs-pl,且更关注"什么形式的上下文最有效"的消融分析而非预训练
- vs Futeral et al. (2023) CoMMuTE:CoMMuTE 用对比样本专门评估 MMT 消歧能力,但限于通用领域。ConECT 的电商场景天然提供了更丰富的歧义消解案例(同一词在不同类目下含义不同)
评分¶
- 新颖性: ⭐⭐⭐ — 方法层面创新有限(前缀注入和 VLM 微调都是已有技术),核心贡献在数据集和实验设计
- 实验充分度: ⭐⭐⭐⭐ — 三条技术路线 × 多组对照实验 × 两个评价指标,真/黑图片消融尤其精彩;但缺少样本级分析和更多 VLM 的对比
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,实验设置详尽,负面结果诚实呈报
- 价值: ⭐⭐⭐ — 数据集对低资源电商翻译研究有实用价值,消融实验结论对 MMT 社区有参考意义,但技术贡献相对有限
相关论文¶
- [ACL 2025] Autalic: A Dataset for Anti-Autistic Ableist Language In Context
- [ACL 2025] AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning
- [ACL 2025] Attention Entropy is a Key Factor for Parallel Context Encoding
- [ACL 2025] SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification
- [ACL 2025] SHARE: Shared Memory-Aware Open-Domain Long-Term Dialogue Dataset Constructed from Movie Script