OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion¶

会议: CVPR 2026
arXiv: 2604.12356
代码: https://yudongjian.github.io/OmniFood8K-food/
领域: 食物计算 / 多模态融合
关键词: 食物营养估计, 多模态数据集, 深度估计, 频域融合, 中国菜

一句话总结¶

构建了涵盖 8036 个样本的中式食物多模态营养数据集 OmniFood8K 和 115K 合成数据集 NutritionSynth-115K，并提出端到端框架通过 Scale-Shift 深度适配器、频域对齐融合和掩码预测头从单张 RGB 图像预测营养信息。

领域现状：食物营养估计在公共健康中至关重要，深度学习方法在自动识别和估计食物质量、体积和营养方面展现潜力。

现有痛点：(1) 数据限制：现有数据集严重偏向西方菜系，对中式食物覆盖不足；(2) 算法限制：先进方法依赖深度相机获取深度信息，日常场景中食物照片通常用 RGB 相机拍摄。

核心矛盾：深度信息对准确估计食物体积和营养至关重要，但实际部署场景通常只有 RGB 图像。

本文目标：(1) 构建覆盖中式菜系的综合多模态食物数据集；(2) 提出仅需单张 RGB 图像的端到端营养预测框架。

切入角度：利用预训练深度估计模型从 RGB 图像预测深度，通过适配器校正和频域融合替代实际深度传感器。

核心 idea：预测深度图 → 适配器校正 → 频域对齐融合 RGB 和深度特征 → 掩码感知预测。

给定单张 RGB 图像，首先用预训练深度估计模型预测深度图，通过 SSRA 校正深度图的尺度偏差和局部结构误差。然后 FAFM 在频域层级融合 RGB 和校正深度特征。最后 MPH 通过动态通道选择和区域感知注意力预测营养值。

Scale-Shift Residual Adapter (SSRA):
- 功能：校正预训练深度估计的全局尺度偏差和局部结构误差
- 核心思路：学习全局尺度因子和偏移量进行仿射变换实现全局校准，同时用残差网络预测局部修正以保留精细结构
- 设计动机：预训练深度模型在食物图像上的预测存在尺度不一致和局部失真
Frequency-Aligned Fusion Module (FAFM):
- 功能：在频域层级融合 RGB 和深度特征
- 核心思路：将特征转换到频域，对齐 RGB 和深度的不同频率成分（低频捕获全局形状，高频捕获纹理细节），实现跨模态的层级融合
- 设计动机：RGB 和深度特征在空间域直接融合可能因模态差异导致信息冲突，频域对齐提供更自然的融合方式
Mask-based Prediction Head (MPH):
- 功能：聚焦关键食材区域提升预测准确性
- 核心思路：通过动态通道选择筛选信息量最大的特征通道，结合区域感知注意力强调关键食材区域
- 设计动机：食物图像中不同区域的营养信息密度不同，背景和容器对预测是噪声

标准回归损失预测热量和宏量营养素。使用 NutritionSynth-115K 合成数据进行预训练增强泛化能力。

方法	热量 MAE↓	蛋白质 MAE↓	脂肪 MAE↓	碳水 MAE↓
Im2Calories	224.5	15.8	13.2	22.1
Nutrition5K	198.3	13.5	11.4	19.7
RoDE	185.7	12.8	10.6	18.3
FBFPN (RGB+D)	172.4	11.2	9.8	16.5
本文 (仅RGB)	165.8	10.5	9.2	15.8