Synthia: Novel Concept Design with Affordance Composition¶

会议: ACL 2025
arXiv: 2502.17793
代码: 有 (https://github.com/HyeonjeongHa/SYNTHIA)
领域: 多模态 / 文本到图像生成
关键词: affordance, 概念设计, 课程学习, 对比学习, T2I模型

一句话总结¶

Synthia 提出了一种基于 affordance（功能可供性）组合的新颖概念设计框架，通过层次化概念本体、affordance 采样策略和课程学习微调 T2I 模型，生成既视觉新颖又功能连贯的创新设计。

研究背景与动机¶

文本到图像（T2I）模型在 AI 驱动设计中广泛应用，但现有方法存在两大核心问题：

忽视功能连贯性：现有方法依赖复杂文本描述生成视觉变体，但不关注多种功能是否能协调融合为单一连贯概念。例如，当要求同时具备"驾驶"和"吸尘"功能时，Stable Diffusion 生成的只是一辆车，缺少吸尘功能。

缺乏结构化功能基础：直接将 LLM 生成的提示输入 T2I 模型，缺少对"概念-部件-功能"这种层次结构的理解。

Synthia 的核心思想是：以 affordance（功能可供性） 作为概念合成的控制信号，而非依赖复杂的文本描述。例如，输入"brew + deliver"这两个 affordance，模型应自动合成一个具有咖啡机和手推车功能的新颖设计。

方法详解¶

整体框架¶

Synthia 包含三个阶段： 1. Affordance 组合课程构建 —— 基于本体构建从易到难的训练数据 2. 基于 Affordance 的课程学习 —— 结合对比目标微调 T2I 模型 3. 评估 —— 自动和人工评估 faithfulness、novelty、practicality、coherence

关键设计¶

层次化概念本体 \(\mathcal{O} = (\mathcal{S}, \mathcal{C}, \mathcal{P}, \mathcal{A})\)
- 四层结构：上位类别 → 概念 → 部件 → Affordance
- 例：furniture → sofa → {leg, cushion} → {support, rest}
- 规模：30 个上位类、590 个概念、1172 个部件、686 个 affordance
- 动机：为 T2I 模型提供结构化的功能基础，避免仅基于表面视觉特征组合
Affordance 采样策略
- 定义概念距离 \(D_\mathcal{C}(c_i, c_j)\)：融合 affordance 级 Jaccard 相似度和 BERT 语义相似度（\(\alpha=0.7, \beta=0.3\)）
- 进一步推导 affordance 距离 \(D_\mathcal{A}(a_i, a_j)\)：对关联概念的成对距离取均值
- 动机：避免随机采样导致的冗余组合（如 cook + heat），确保选取足够不同的 affordance 对
三阶段课程构建
- 第一阶段：近距离 affordance 对 → 学习基本概念-affordance 关联
- 第二阶段：中等距离 → 学习精细组合结构
- 第三阶段：远距离 → 挑战模型合成真正新颖的、功能连贯的概念
- 共采样 600 对 affordance，每对生成 10 张图像（DALL-E），CLIP 过滤后保留 Top-3
对比学习微调
- 正约束：目标 affordance 对应的伪新颖概念图像
- 负约束：本体中已有的、包含目标 affordance 的现有概念图像
- 总损失：\(\mathcal{L} = \mathcal{L}_{pos} - \gamma \cdot \mathcal{L}_{neg}\)
- 包含噪声预测损失防止灾难性遗忘

推理时¶

推理时仅需提供 affordance 作为正约束，无需负约束或复杂描述。提示格式："a new design that has functions of {desired affordances}."

实验关键数据¶

主实验——自动评估与人工评估（Table 1）¶

模型	忠实度(自动/人工)	新颖性(自动/人工)	实用性(自动/人工)	连贯性(自动/人工)
Stable Diffusion	3.77/2.96	3.74/2.44	3.34/3.02	3.29/2.75
Kandinsky3	3.38/2.95	4.02/2.98	2.92/3.01	3.89/3.41
ConceptLab	3.39/2.73	4.08/3.11	2.93/2.68	3.96/3.54
Synthia	3.99/3.81	4.55/3.89	3.35/3.38	4.81/4.06

Synthia 在新颖性和连贯性上分别取得 25.1% 和 14.7% 的人工评估绝对提升。

消融实验¶

消融项	关键结果
训练数据量	200→400→600 对逐步提升，600 对为最优
Affordance 距离	远距离对上 Synthia 新颖性始终高于基线
课程学习 vs 随机训练	课程学习在训练早期即显著优于随机训练
3/4 个 affordance 输入	仅训练 2 对，但在 3/4 affordance 上也能保持高分

关键发现¶

现有 T2I 模型在近距离 affordance 上倾向于生成已有概念，而非新颖设计
课程学习显著加速训练，并引导模型生成高质量新颖概念
Synthia 在相对评价中甚至超过 DALL-E，说明微调后的概念组合能力优于原始大模型
人工评估 IAA 为 67.5%，自动与人工评估对齐率达 91.25%

亮点与洞察¶

Affordance 视角独特：首次将"functionality"作为概念设计的第一公民，而非纯视觉特征
本体设计精巧：层次化概念本体为结构化功能组合提供了坚实基础
课程学习有效：从易到难的 affordance 组合训练策略显著优于随机训练
推理简洁：推理时无需复杂提示或负约束，仅需 affordance 关键词

局限与展望¶

训练数据依赖 DALL-E 生成的伪新颖图像，质量受限于 DALL-E 本身
本体构建需要人工设计，扩展到更多领域成本较高
仅评估了 2 个 affordance 的组合，更多 affordance 的组合效果有待验证
未考虑物理可行性和制造约束

评分¶

新颖性: ⭐⭐⭐⭐ — affordance 驱动的概念设计是新颖视角，本体+课程学习方案原创
实验充分度: ⭐⭐⭐⭐ — 自动+人工评估全面，消融实验充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，示意图直观
价值: ⭐⭐⭐⭐ — 对 AI 辅助设计有实际应用价值