Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests¶

会议: ICCV2025
arXiv: 2510.13316
代码: https://github.com/fiabdu/Visual-Interestingness-Decoded
领域: 多模态VLM / 视觉理解
关键词: Visual Interestingness, GPT-4o, Large Multimodal Models, Human-AI Alignment, Learning to Rank

一句话总结¶

系统性研究了 GPT-4o 等大型多模态模型对"图像有趣性"这一主观视觉概念的理解程度，发现 GPT-4o 与人类评判有中等正相关（配对图像一致率 73.8%），并提出利用 GPT-4o 自动标注图像对训练 learning-to-rank 模型来预测图像有趣性，超越了所有现有方法。

研究背景与动机¶

领域现状：视觉有趣性（visual interestingness）是一个高度主观的概念——什么图像能吸引人的注意力？这个问题自 Berlyne 1949 年提出以来一直是计算机视觉和心理学的交叉领域。现有研究主要依赖人工标注（成本高、规模受限）或社交平台隐式信号（如 Flickr 收藏数，但有平台偏差）。

现有痛点： - 直接标注（AMT crowd-sourcing）成本高昂且难以规模化 - 社交媒体指标（阅读量、收藏量）反映的是社交互动而非纯视觉有趣性 - 缺乏可扩展的标注方法来获取大规模有趣性标签 - LMM 在客观视觉任务（分类、VQA）上表现优异，但其对主观概念的理解能力尚未被系统探索

核心矛盾：有趣性是主观的（因人而异），但也存在某些图像"普遍有趣"的现象。能否利用 LMM 编码的大规模人类知识来自动捕捉这种"共识有趣性"？

本文目标：(1) LMM（特别是 GPT-4o）在多大程度上理解视觉有趣性？(2) LMM 的标注与人类判断的一致性和差异性在哪里？(3) 能否用 LMM 的知识训练一个轻量级的有趣性预测模型？

切入角度：用配对比较（pairwise comparison）替代绝对评分来评估有趣性，因为人对"哪个更有趣"的判断比"是否有趣"更可靠、更有区分度。

核心 idea：用 GPT-4o 的配对有趣性标注替代人工标注，通过 learning-to-rank 框架蒸馏出轻量级有趣性预测模型。

方法详解¶

整体框架¶

研究分为四个递进实验：(1) 单图有趣性评估：人类和 LMM 各自判断 1000 张图像是否有趣；(2) 配对有趣性评估：人类和 GPT-4o 对 2500 个图像对判断哪个更有趣；(3) Learning-to-Rank 模型训练：用标注数据训练 Siamese 网络预测有趣性排序；(4) 深度分析：通过聚类解释人类和 GPT-4o 的一致与分歧。

关键设计¶

单图有趣性评估实验:
- 功能：建立基线——人类和 LMM 对绝对有趣性的判断
- 核心思路：从 Flickr-User 数据集均匀采样 1000 张图像，AMT 上 258 名工人各给每张图 5 次"是否有趣"的二元判断，同时 GPT-4o/Llama 3.2/DeepSeek-VL2 各做 5 次判断。一致性 \(|\mathcal{C}_x|\) 定义为 4/5 以上工人一致的比例
- 关键发现：人类一致率 91.9%，GPT-4o 一致率 93.9%，但 几乎所有图像都被判为"有趣"（人类 99.9%，GPT-4o 95.3%）。这说明绝对有趣性评估几乎无区分度——人和模型被问到时都倾向于"找有趣的地方"
配对有趣性评估实验:
- 功能：通过相对比较获得有区分度的有趣性标注
- 核心思路：构建 2500 个图像对，553 名 AMT 工人做配对判断。GPT-4o 同样做配对判断。发现并处理了 GPT-4o 的系统性偏差——36% 的图像对中 GPT-4o 总是偏好第二张图（位置偏差）。通过正反序双跑筛除不一致的对，保留 1599 个可靠标注对
- 关键发现：人类在配对比较中一致率降至 56.3%（说明有趣性确实主观）。GPT-4o 与人类的整体一致率为 66.2%，在人类高度共识的图像对上升至 73.8%
- 设计动机：配对比较比绝对评分更有效地捕捉有趣性差异
Learning-to-Rank 蒸馏模型:
- 功能：用标注数据训练一个轻量级的有趣性预测模型
- 核心思路：Siamese 网络架构，共享权重。输入图像对 \((I_0, I_1)\) → 分别用 CLIP 提取特征 → 共享线性层（单神经元）→ 打分差异通过 sigmoid → 二元交叉熵损失训练。得分函数 \(S(I_0, I_1) = \sigma(\mathbf{w}^\top \text{CLIP}(I_0) - \mathbf{w}^\top \text{CLIP}(I_1))\)。训练后对单张图像也能输出有趣性分数 \(S(I) = \sigma(\mathbf{w}^\top \text{CLIP}(I))\)
- 设计动机：模型极其轻量（单层线性），训练数据来自 GPT-4o 自动标注（可大规模扩展）。CLIP 特征已编码了丰富的视觉语义，线性层只需学习"有趣性"这个维度
人机差异分析:
- 功能：通过文本 embedding 聚类理解人类和 GPT-4o 对有趣性的不同理解方式
- 核心思路：对标注者的"原因"文本用 OpenAI embedding 模型编码后做层次聚类，发现共识和分歧模式
- 关键发现：人类和 GPT-4o 在"可爱/情感共鸣"、"独特性"上高度一致，但 GPT-4o 还额外偏好"色彩鲜艳"和"动态场景"（人类未必认为这些有趣）

损失函数 / 训练策略¶

二元交叉熵损失，数据 50/50 划分训练/测试，训练 25 epochs，无过拟合。50 次不同 split 的平均结果作为最终报告。

实验关键数据¶

主实验（配对有趣性预测准确率）¶

方法	与人类一致率 \(A^{(H,x)}\)	LtR 模型 Acc (人类GT)	Spearman \(r_S\) (人类)
GPT-4o 直接标注	73.8%	73.4%	0.59
CuPL (zero-shot)	60.3%	61.5%	0.34
CI (Commonly Interesting)	69.6%	69.6%	0.54
Aesthetic (VILA)	68.3%	69.0%	0.50
Memorability	35.5%	34.7%	-0.42
#Comments (社交指标)	68.0%	66.6%	0.46
#Favorites (社交指标)	66.4%	66.3%	0.47
Human baseline	-	77.5%	-

消融实验（不同标注源训练的 LtR 模型对比）¶

训练标注源	测试 Acc (人类GT)	测试 Acc (GPT-4o GT)	说明
Human	77.5%	72.0%	最优人类预测
GPT-4o	73.4%	84.8%	最优 GPT-4o 预测
Aesthetic	69.0%	73.6%	审美≠有趣
CI	69.6%	69.1%	关联但不同
Memorability	34.7%	38.3%	记忆性与有趣性负相关

关键发现¶

绝对评估无意义：单图"是否有趣"的问题几乎无区分度——人和 LMM 都倾向找到有趣之处，99%+ 判为有趣
GPT-4o 有位置偏差：36% 的配对中总是选第二张图，这是一个值得注意的系统性错误
记忆性与有趣性负相关：Memorability 模型的 Spearman 相关为 -0.42，说明容易记住的图像不一定有趣
GPT-4o 不受人口统计影响：测试了不同性别、年龄、地区的 persona prompt，116 个图像对的结果完全相同
GPT-4o 额外偏好鲜艳色彩和动态场景：人类不一定认为这些有趣，暗示 LMM 的"有趣性"概念部分来自其训练数据中的视觉显著性

亮点与洞察¶

提出了一个有价值的研究范式：用 LMM 的知识蒸馏来替代人工标注，这个思路不局限于有趣性，可以推广到任何主观视觉属性（审美、情绪、风格等）
配对比较的 insight：绝对评分（"是否有趣"）几乎无效，配对比较（"哪个更有趣"）才是获取主观评价的正确方式。这与心理物理学中 2AFC（two-alternative forced choice）的经典方法论一致
GPT-4o 位置偏差的发现：36% 的配对存在系统性第二图偏好，这对所有使用 LMM 做配对标注的研究都是重要的 caveat
模型极简但有效：最终的 learning-to-rank 模型就是 CLIP 特征上的单层线性变换，极其轻量却能超越所有专用方法

局限与展望¶

数据集规模有限：仅 1000 张图像 / 2500 图像对，限制了结论的普遍性
仅限日常图像：聚焦于 Flickr 日常照片，未涉及艺术作品、科学图像、医学图像等特殊领域
GPT-4o 位置偏差处理过于粗暴：简单丢弃 36% 不一致的图像对，更好的做法可能是对位置偏差建模并校正
Llama 3.2 和 DeepSeek 因不支持多图输入而被排除：只比较了 GPT-4o，缺乏对更多 LMM 的系统比较
learning-to-rank 模型架构过简：仅用 CLIP + 线性层，更复杂的架构可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性研究 LMM 对主观视觉概念的理解，研究范式有创新
实验充分度: ⭐⭐⭐ 多角度分析深入，但数据规模较小且仅限 GPT-4o
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，层层递进，key insight 提炼准确
价值: ⭐⭐⭐⭐ 开辟了 LMM 主观视觉理解的研究方向，蒸馏范式有广泛应用前景