ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT¶

会议: ACL 2025
arXiv: 2506.04929
代码: 有（数据集）
领域: 机器翻译 / 电商 NLP
关键词: 多模态机器翻译, 电商翻译, 上下文感知, 低资源语言对, 数据集

一句话总结¶

构建了 ConECT——首个捷克-波兰电商多模态翻译数据集（11,400 句对 + 产品图片 + 类目路径），通过 VLM 端到端翻译、NMT+类目路径前缀、NMT+图像描述前缀三条技术路线的系统对比，发现结构化类目上下文能稳定提升翻译质量（COMET +0.005），而合成图像描述以级联方式注入反而严重损害翻译性能（COMET 暴跌 0.11+）。

研究背景与动机¶

领域现状：神经机器翻译（NMT）在通用领域已经借助 Transformer 结构取得了接近人类水平的表现，而多模态机器翻译（MMT）把图像等视觉信息融入翻译流程，在 WMT 2016-2018 共享任务和 Multi30K 等基准上展示了辅助消歧的潜力。近年来 VLM（如 PaliGemma）的发展进一步让端到端的图文翻译成为可能。

现有痛点：电商场景是上下文感知翻译的天然试验田——产品名称短小精悍且术语密集、描述充斥领域专有词汇,同时天然附带产品图片和层级类目信息。然而现有 MMT 研究几乎全部围绕 Multi30K 等通用数据集展开，缺少面向电商领域的高质量多模态平行语料。更棘手的是，高质量图文对齐训练数据仅覆盖平行语料的极小比例，低资源语言对（如捷克-波兰）几乎零覆盖。

核心矛盾：电商翻译中的歧义消解确实需要额外上下文信息（图片、类目），但：(1) 缺少领域内可控的多模态测试集来公平比较不同上下文融入策略；(2) 不清楚视觉信息在真实电商翻译中到底贡献了多少——是真正帮助消歧还是仅充当噪声。

本文目标 两个核心问题：① 构建一个高质量的电商多模态翻译数据集填补资源空白；② 在数据集上系统评估三种上下文整合策略（VLM 端到端、类目路径前缀、图像描述前缀），量化各类上下文信息对翻译质量的影响。

切入角度：作者来自 Allegro.com（波兰最大电商平台），拥有大规模真实产品数据的天然优势。他们以捷克-波兰这一低资源但地理邻近的语言对为切入，利用商家在两国平台同时上架的产品作为天然平行语料源，搭配专业翻译人员进行质量校准。

核心 idea：构建一个产品图片+类目路径+三类文本对齐的电商翻译数据集，通过严格对照实验证明结构化上下文（类目路径）优于非结构化上下文（合成图像描述）。

方法详解¶

整体框架¶

论文设计了三条平行的技术路线来对比"如何把额外上下文融入翻译"：输入端统一是捷克语电商文本（产品名称 / 产品描述 / 促销标题），输出端统一是波兰语翻译。三条路线分别是：(1) VLM（PaliGemma-3b）接收图片+文本端到端翻译；(2) NMT（Transformer big）在源文本前拼接类目路径前缀；(3) NMT 在源文本前拼接由 VLM 预先生成的图像描述前缀。每条路线都设置了有/无上下文的对照组，确保观测到的差异完全来自上下文信息本身。

关键设计¶

ConECT 数据集构建流程:
- 功能：提供首个捷克-波兰电商多模态翻译基准，涵盖产品名称（4,691 句）、产品描述（3,680 句）、促销标题（1,924 句）三类文本，每条样本对齐一张主产品图片和类目路径
- 核心思路：从 allegro.pl 平台提取波兰语产品文本，由专业翻译人员手动翻译为捷克语并二次审核。训练集则利用 allegro.pl 和 mall.cz 两个平台上同一商品的跨语言描述，通过 language-agnostic BERT 句子嵌入对齐句子级平行对，生成 23 万句对。此外额外采集 44 万波兰语产品名+图片，用反向翻译合成捷克语端，构建 VLM 训练所需的图文对齐数据
- 设计动机：现有 MMT 数据集（如 Multi30K）是通用图片描述，不含电商术语和类目元数据。ConECT 的三类文本覆盖了电商翻译中从短文本（产品名约 7.4 词）到长文本（描述约 10.6 词）的多样性，同时类目路径提供了层级结构化的领域信号
VLM 端到端翻译 + 真/黑图片消融:
- 功能：评估视觉信息对翻译质量的真实贡献
- 核心思路：基于 PaliGemma-3b-pt-224 进行 LoRA 微调（rank=8, alpha=8），设计 2×2 实验矩阵——训练和推理各自使用真实产品图片或全黑图片，组合出 4 种条件。如果模型只是学到了"有图无图"的偏差而非真正利用视觉内容，那在推理时换黑图应该不影响性能；反之性能下降说明视觉信息确实被利用
- 设计动机：直接比较 VLM vs NMT 不公平（模型大小、训练数据不同），但同一个 VLM 在真/黑图片间的性能差异可以干净地隔离出视觉贡献。这避免了 MMT 社区长期存在的"模型到底有没有看图"的质疑
NMT 上下文前缀注入机制:
- 功能：在不改变模型架构的前提下，将类目路径或图像描述作为额外上下文注入文本翻译模型
- 核心思路：类目路径用特殊标记 <SC>...<EC> 包裹后拼接在源语言句子前面（如 <SC> Sport <SEP> Rowery <SEP> Opony <EC> 原文），图像描述类似地用 <SD>...<ED> 包裹。基线 NMT 使用 Transformer big 架构，53M 句对预训练，然后在加入上下文前缀的数据上微调。为保证公平性，每种上下文实验都额外训练一个"数据量相同但去除前缀"的对照组，学习率统一为 5e-6，数据中混入 7M 无上下文句对防止模型过度依赖前缀
- 设计动机：前缀注入是最轻量的上下文整合方式，无需修改编码器-解码器架构，因此可以直接复用已有的 NMT 基线权重进行微调。同时对照组的存在确保性能差异不来自更多微调数据，而确实来自上下文信号

损失函数 / 训练策略¶

VLM 训练采用学习率 1e-4、batch size 16、4 个 epoch，在单张 A100 上完成。NMT 基线在 4 块 A100 上训练，使用 32K 共享词表和 chrF 早停策略。微调阶段所有 NMT 变体统一使用 5e-6 学习率。训练数据方面，类目路径实验使用原始 23 万平行句 + 各 7M 反向翻译的产品名和描述（带类目路径）+ 7M 无类目句子；图像描述实验使用上述图文数据（由 PaliGemma 生成捷克语描述后注入）+ 70 万无描述句子。

实验关键数据¶

主实验（ConECT 测试集）¶

模型	产品名 chrF	促销标题 chrF	产品描述 chrF	全集 chrF	全集 COMET
NLLB-600M（零样本）	48.46	38.01	48.50	46.85	0.7288
PaliGemma（真图训练+真图推理）	83.48	79.41	61.92	72.31	0.9152
PaliGemma（真图训练+黑图推理）	81.36	77.10	61.75	71.12	0.9095
PaliGemma（黑图训练+黑图推理）	82.49	77.97	60.87	71.24	0.9091
NMT 基线	84.83	83.73	70.76	77.74	0.9311
NMT + 无类目对照	85.27	83.66	72.78	78.87	0.9354
NMT + 类目路径	85.51	83.73	71.95	78.56	0.9362
NMT + 无描述对照	85.10	83.99	70.81	77.90	0.9341
NMT + 图像描述	83.25	82.63	48.26	65.97	0.8219

上下文贡献量化分析¶

对比条件	产品名 chrF Δ	全集 COMET Δ	分析
VLM 真图 vs 全黑图（训练+推理）	+0.99	+0.0061	视觉信息有正向贡献但幅度有限
VLM 真图训练→真图推理 vs 真图训练→黑图推理	+2.12	+0.0086	推理时真图帮助更大
NMT 有类目 vs 无类目（对照组）	+0.24	+0.0008	类目路径贡献稳定但较小
NMT 有描述 vs 无描述（对照组）	−1.85	−0.1122	合成图像描述严重损害翻译
NMT 基线 vs PaliGemma 最佳（产品描述）	+8.84	+0.0159	NMT 在长文本上大幅领先 VLM

关键发现¶

VLM 确实利用了视觉信息但收益有限：真实图片训练+推理 vs 全黑图在产品名上 chrF 提升约 1 点，在促销标题上约 1.4 点。然而在产品描述（更长的文本）上差异极小，说明 PaliGemma-3b 的上下文窗口和参数量限制了其处理长文本的能力
类目路径是最可靠的上下文信号：COMET 在所有三个子集上均有正增益，且不会引入噪声。产品名上 chrF 提升最显著（+0.24），因为短文本的歧义性更高，层级类目提供的领域信号更关键
合成图像描述灾难性失败：产品描述子集上 chrF 从 70.81 暴跌到 48.26（下降 22.55），整体 COMET 从 0.9341 骤降到 0.8219。原因是 PaliGemma 生成的图像描述质量不高，合成噪声通过前缀被放大传播到翻译输出
NMT 在产品描述上全面碾压 VLM：基线 NMT chrF=70.76 vs PaliGemma 最佳 61.92，差距近 9 个点。NMT 的 53M 句对训练带来的语言模型能力在长文本翻译中优势明显

亮点与洞察¶

真/黑图片消融设计极其巧妙：用全黑图片替代真实图片并交叉组合训练/推理，干净地隔离了"视觉信息到底有没有被利用"这个 MMT 社区的核心争议问题，避免了模型容量、训练数据等混杂因素
负面结果的科学价值：合成图像描述级联注入 NMT 的惨烈失败，提醒社区不能天真地用 VLM 生成图像描述再塞进文本模型——信息转换过程中的噪声累积远超上下文收益
前缀注入的极简设计：不修改架构、只用特殊标记包裹上下文拼接到源文本前面，是一种可以零成本复用到任何 seq2seq 模型的上下文整合范式。类目路径的正收益证明了结构化元数据的价值

局限与展望¶

测试集规模有限且训练高度依赖合成数据：测试集约 10K 句对，训练用到 7M+ 反向翻译数据，合成数据的领域分布偏移可能影响实验结论的外推性
上下文并非总是需要：很多产品名和描述本身无歧义，此时额外上下文贡献为零甚至负。论文未分析"上下文真正帮助翻译的比例有多高"，缺少样本级分析
图像描述生成方式过于粗糙：只用 PaliGemma 默认 prompt 生成捷克语描述，未尝试更有针对性的 prompt（如"描述产品材质和用途"）或多轮生成过滤低质量描述
单一低资源语言对：仅测试 cs→pl，无法确认结论对高资源或语系更远的语言对是否成立
VLM 选型局限：PaliGemma-3b 参数量较小，更大的 VLM（如 InternVL2、Qwen-VL）可能在长文本翻译上表现更好，但论文未做对比

评分¶

新颖性: ⭐⭐⭐ — 方法层面创新有限（前缀注入和 VLM 微调都是已有技术），核心贡献在数据集和实验设计
实验充分度: ⭐⭐⭐⭐ — 三条技术路线 × 多组对照实验 × 两个评价指标，真/黑图片消融尤其精彩；但缺少样本级分析和更多 VLM 的对比
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验设置详尽，负面结果诚实呈报
价值: ⭐⭐⭐ — 数据集对低资源电商翻译研究有实用价值，消融实验结论对 MMT 社区有参考意义，但技术贡献相对有限