TexEditor: Structure-Preserving Text-Driven Texture Editing¶

日期: 2026-03-19
arXiv: 2603.18488
代码: GitHub
领域: 图像生成 / 图像编辑
关键词: 纹理编辑, 结构保持, Blender合成数据, 强化学习, TexBench

一句话总结¶

提出 TexEditor，通过 Blender 合成的 TexBlender 数据集做 SFT 冷启动 + StructureNFT 强化学习（结合指令遵循和结构保持奖励）两阶段训练，在文本驱动纹理编辑中一致超越 Nano Banana Pro 等 SOTA 编辑模型，同时提出 TexBench（真实世界基准）和 TexEval（结合结构一致性的评估指标）。

研究背景与动机¶

领域现状: 文本驱动图像编辑快速发展（Stable Diffusion、Qwen-Image-Edit 等），但纹理编辑（只改外观不改几何）是未被充分解决的子问题。
现有痛点: 即使 SOTA 编辑模型（如 Nano Banana Pro），在纹理编辑时也经常不保持物体几何结构——本该只改"皮肤"却连"骨头"一起改了。原因：缺乏明确的结构保持训练信号，且无合适的纹理编辑评估基准。
核心矛盾: 纹理编辑需要精确解耦外观和几何——修改纹理属性（粗糙度、材质）同时保持物体形状、空间布局和语义身份不变。
切入角度: 从数据和训练两方面入手——用 Blender 合成几何不变的配对数据做冷启动，再用 RL + 结构保持 loss 泛化到真实场景。

方法详解¶

整体框架¶

基于 Qwen-Image-Edit-2509 的两阶段训练： 1. SFT 阶段：在 TexBlender 合成数据上微调，学习纹理编辑 + 结构保持 2. RL 阶段：在 COCO 真实图像上用 StructureNFT 强化学习，泛化到真实场景

关键设计¶

TexBlender 合成数据集:
- 做什么：提供配对的（编辑前, 编辑后）图像，几何完全相同仅纹理变化
- 核心思路：用 3D-Front 室内场景 + Blender 渲染，两种编辑模式：(a) 属性调整（粗糙度/金属度/透明度）通过 Principled BSDF shader；(b) 全局纹理替换（用 MatSynth 纹理）
- 关键区别：不是单物体而是场景级，对物体组编辑（不同粒度），加入复杂背景和遮挡
- 指令生成：记录纹理修改元数据 → Qwen3-VL 生成自然语言指令 → SAM3 视觉引导精化
StructureNFT（结构感知 RL）:
- 做什么：在真实图像上通过 RL 平衡指令遵循和结构保持
- 奖励函数：\(Reward = Score_{ins} + Score_{struct}\)
- 指令奖励：\(Score_{ins} = MLLM(I_e, I, P, P_{sys})\)，用 Gemini 3 Flash 评分
- 结构奖励：比较三种方案后选 SSIM on SAUGE wireframe
- SAM3 mask IoU：太粗粒度
- Wireframe IoU：对像素扰动过敏
- Wireframe SSIM（最终选择）：\(s = SSIM(SAUGE(I_e), SAUGE(I))\)，对小位移鲁棒
经验归一化：原始 SSIM 值范围窄，为纹理替换和属性编辑分别设 \(\tau_{min}, \tau_{max}\) 做分段线性映射
TexEval 评估指标:
- 做什么：联合评估指令遵循和结构保持
- \(TexEval = \alpha \cdot Score_{Ins} + (1-\alpha) \cdot Score_{struct}\)
- 500 对样本的人类偏好研究验证其与人类判断对齐度最高

实验关键数据¶

TexBench 主实验¶

方法	Texture TexEval↑	Attribute TexEval↑
Qwen-2509 (base)	0.717	0.514
Alchemist	0.741	0.583
Nano Banana Pro	0.794	0.597
TexEditor	0.767	0.620
TexEditor-Pro	0.796	0.630

消融实验¶

配置	TexEval
Base (Qwen-2509)	0.717
+ SFT (TexBlender)	0.750
+ RL (指令 only)	0.758
+ RL (指令 + 结构)	0.767

关键发现¶

SFT 冷启动提供了显著的结构保持先验（+0.033 TexEval）
RL 阶段结构 loss 的加入进一步提升性能——仅用指令奖励的 RL 会忽视结构退化
在 ImgEdit 通用编辑基准的纹理子任务上，TexEditor 超越其基座模型 Qwen-2509

亮点与洞察¶

数据+训练双管齐下：Blender 提供干净的结构保持监督信号 → SFT 学会"什么不该改"；RL 泛化到真实场景 → 学会"在复杂背景下也不改"
SAUGE wireframe + SSIM 做结构度量：比语义级 SAM mask 更细粒度，比像素级 wireframe IoU 更鲁棒——这个组合可复用到其他结构保持任务
TexBench 填补空白：首个基于真实图像的场景级纹理编辑基准，825 条样本覆盖属性编辑和纹理替换

局限性 / 可改进方向¶

合成数据与真实图像的 domain gap 仍存在——RL 阶段部分弥补但不完全
结构评估依赖 SAUGE 线框提取质量，某些纹理变化可能改变线框
TexBench 规模有限（825 条），评测覆盖有限
归一化阈值基于经验设定，不是最优的

评分¶

新颖性: ⭐⭐⭐⭐ TexBlender + StructureNFT 的数据-训练联合方案设计巧妙
实验充分度: ⭐⭐⭐⭐ 消融全面，有泛化实验，但基准规模有限
写作质量: ⭐⭐⭐⭐ 问题定义清晰，训练流程图直观
价值: ⭐⭐⭐⭐ 对纹理编辑和结构保持领域有直接贡献