Coded-E2LF: Coded Aperture Light Field Imaging from Events¶

会议: CVPR2026 arXiv: 2602.22620 代码: 待确认领域: others (Computational Photography / Event Camera) 关键词: light field imaging, event camera, coded aperture, deep optics, end-to-end optimization, black-first coding sequence

一句话总结¶

首次证明仅用 event camera（无需传统 intensity 图像）即可重建像素级精度的 4D 光场，提出 Coded-E2LF 系统：通过编码光圈序列触发 events 并累积为 event images，利用全黑 pattern 建立 event-based 与 intensity-based coded aperture imaging 的数学等价性，结合端到端 deep optics 训练实现 8×8 视点光场重建。

研究背景与动机¶

光场成像的价值与局限：4D 光场记录了场景中光线的空间和角度信息，可用于数字重聚焦、深度估计、视点合成等应用。传统光场相机（如 Lytro）使用微透镜阵列，空间分辨率与角度分辨率之间存在固有的分辨率折中
编码光圈方法的进展：coded aperture 通过在镜头光圈上施加已知编码 pattern，将角度信息编码到单张 2D 图像中，后端计算重建光场。这避免了微透镜的分辨率损失，但重建质量依赖于编码设计和解码算法
传统编码光圈的限制：基于 intensity 相机的编码光圈成像需要多次曝光（每次使用不同 pattern），受限于相机读出速度和场景动态——多次曝光间的物体运动会导致伪影
Event camera 的独特优势：event camera 异步地检测像素级亮度变化，具有微秒级时间分辨率、高动态范围 (120+ dB)、低功耗等特性。当 coded aperture pattern 切换时，即使场景完全静态，pattern 变化本身就会触发 events
未被探索的结合：event camera + coded aperture 的组合尚无先例——event camera 天然适合检测 pattern 切换引起的亮度变化，理论上可以极快速度完成多 pattern 采集，但 event 数据的非线性对数响应使得传统 coded aperture 理论不直接适用

核心问题¶

如何利用 event camera 的高时间分辨率特性，通过编码光圈 pattern 序列仅从 events 数据中重建完整的 4D 光场，解决 event-to-intensity 转换中的非线性问题，并实现可硬件部署的实用系统？

方法详解¶

系统概述¶

Coded-E2LF 系统由三部分组成：(1) 硬件层——可编程光圈 + event camera；(2) 编码理论——black pattern 等价性定理 + BF 编码序列；(3) 网络层——AcqNet (学习编码 pattern) + RecNet (重建光场) 端到端训练。

编码光圈 + Event Camera 成像模型¶

编码过程：$N$ 个编码 pattern $\{a^{(n)}\}_{n=1}^{N}$ 依次施加于光圈，每个 pattern $a^{(n)} \in \{0, 1\}^{u \times v}$（$u \times v$ 为角度分辨率，如 $8 \times 8$），控制对应子光圈的开关
静态场景假设：场景在 pattern 序列切换期间保持静态（约 20ms），pattern 切换是唯一触发 events 的亮度变化来源
Event 累积：pattern 从 $a^{(n-1)}$ 切换到 $a^{(n)}$ 时触发的 events 可累积为 event image： $$E^{(n-1,n)}(x) = \log I^{(n)}(x) - \log I^{(n-1)}(x)$$ 其中 $I^{(n)}(x) = \sum_{s,t} a^{(n)}(s,t) \cdot L(x, s, t)$ 是 pattern $a^{(n)}$ 下的强度图像，$L(x,s,t)$ 是待重建的光场

关键理论：Black Pattern 的作用¶

核心定理 (Eq. 8)：若编码序列中包含一个全黑 pattern $a^{(n_B)} = \mathbf{0}$（即光圈完全关闭），则有： $$E^{(n_B, n)}(x) = \log I^{(n)}(x) - \log I^{(n_B)}(x) = \log I^{(n)}(x) + C$$ 因为 $I^{(n_B)} = 0$ 时需特殊处理——实际中 event camera 有暗电流基底 $I_{\text{dark}}$，使得 $\log I^{(n_B)}$ 为常数 $C$
等价性：上式说明包含黑 pattern 的 event image 与 intensity-based coded aperture image 仅差一个全局常数，因此传统编码光圈理论的解码方法可以直接适用
Pattern 置换近似不变性：在黑 pattern 参与下，不同 pattern 顺序生成的 event images 近似等价（因为黑 pattern 提供了统一的参考基准），简化了编码设计

Black-First Coding Sequence (BF)¶

设计：将黑 pattern 固定为序列第一个（$a^{(1)} = \mathbf{0}$），后续 $N-1$ 个 pattern 依次施加
优势：
从第一个黑 pattern 到各后续 pattern 的 event images $\{E^{(1,n)}\}_{n=2}^{N}$ 直接对应 intensity-based 测量
大幅减少 event 数量——相比任意序列，BF 避免了相邻非零 pattern 之间的冗余 events
$N-1$ 个 event images 即可重建 $u \times v$ 视点的完整光场
实测效率：20ms 左右即可完成整个编码序列的采集

Reference-Aware Event Generation (RA)¶

动机：event camera 的对数响应和阈值机制使得简单的 event 累积存在误差
方法：显式追踪参考强度 $I_{\text{ref}}$，准确模拟 event 生成过程： $$e_k = \begin{cases} +1 & \text{if } \log I(x_k, t_k) - \log I_{\text{ref}}(x_k) \geq C_{\text{pos}} \\ -1 & \text{if } \log I(x_k, t_k) - \log I_{\text{ref}}(x_k) \leq -C_{\text{neg}} \end{cases}$$ 每触发一次 event，$I_{\text{ref}}$ 随之更新
在训练中：RA 作为可微分的 event 生成模拟器，使编码 pattern 的优化梯度可以准确回传

端到端 Deep Optics 训练¶

AcqNet（学习编码 pattern）：输入随机初始化的连续 pattern $\tilde{a}^{(n)} \in [0,1]^{u \times v}$，训练收敛后二值化为 $a^{(n)} \in \{0,1\}^{u \times v}$
RecNet（重建光场）：接收 $N-1$ 个 event images，输出完整光场 $\hat{L} \in \mathbb{R}^{H \times W \times u \times v}$
架构：CNN-based encoder-decoder，spatial 和 angular 维度分别处理后融合
损失函数：$\mathcal{L} = \mathcal{L}_{\text{recon}}(\hat{L}, L_{\text{GT}}) + \gamma \cdot \mathcal{L}_{\text{binary}}$
$\mathcal{L}_{\text{recon}}$：光场重建的 L1 + SSIM 损失
$\mathcal{L}_{\text{binary}}$：鼓励 pattern 趋于二值的正则化
训练流程：前向——AcqNet 生成 pattern → RA 模拟 events → RecNet 重建光场；反向——梯度穿过整个 pipeline 联合优化编码和解码

实验¶

实验设置¶

合成数据：基于 HCI 光场数据集和自建合成场景，$8 \times 8$ 视点，空间分辨率 $512 \times 512$
真实硬件：Prophesee EVK4 event camera（分辨率 $1280 \times 720$）+ 可编程 LCD 光圈（覆盖镜头光圈面）
评价指标：PSNR、SSIM、LPIPS

合成数据结果¶

方法	#Patterns	PSNR ↑	SSIM ↑	LPIPS ↓
Intensity-based coded aperture	9	34.2	0.952	0.041
Naive event accumulation	9	28.7	0.891	0.098
Coded-E2LF (random patterns)	9	33.5	0.945	0.048
Coded-E2LF (learned, BF)	9	35.1	0.961	0.035

学习到的 BF 编码序列超越了传统 intensity-based 方法，验证了端到端优化的有效性
Naive event accumulation（不含黑 pattern、无 RA）质量显著下降，证明了理论分析的必要性

真实硬件验证¶

使用 Prophesee EVK4 + LCD 光圈实物搭建，9 个 pattern（含 1 个黑 pattern），总采集时间约 20ms
成功重建了 $8 \times 8$ 视点的真实光场，可实现数字重聚焦和视角切换
与 intensity-based 方法相比，event-based 方案在高动态范围场景（强光 + 暗部共存）下表现更优

消融实验¶

配置	PSNR
无黑 pattern (任意 N 个非零 pattern)	29.4
有黑 pattern + 随机位置	33.8
有黑 pattern + BF (固定首位)	35.1
BF + 无 RA	33.2
BF + RA (完整)	35.1

黑 pattern 是性能跳跃的关键（+4.4 dB）
BF 序列比随机放置黑 pattern 进一步提升 1.3 dB
RA 模块贡献 1.9 dB，准确的 event 生成建模不可忽略

亮点¶

开创性贡献：首次证明 event camera 可独立用于 4D 光场重建，无需任何传统 intensity 图像辅助
Black pattern 等价性定理：优雅地解决了 event 数据对数非线性的核心难题——通过引入全黑参考 pattern，将 event-based 成像转化为等价的 intensity-based 问题
BF 编码序列设计：简洁的"黑 pattern 置首"策略同时减少 event 数量和提升重建质量，实用价值高
端到端 deep optics：AcqNet + RecNet 联合优化编码和解码，超越了手工设计编码的上限
真实硬件验证：不仅是理论贡献，Prophesee EVK4 实机实验证明了方案的工程可行性
极快采集速度：20ms 完成全部 pattern 序列，比传统多曝光方案快 1-2 个数量级

局限性¶

静态场景假设限制了应用范围——20ms 内的场景运动仍会引入伪影，动态场景需额外运动补偿
LCD 光圈的切换速度（约 2ms/pattern）是采集速度的瓶颈，换用 DMD（微秒级切换）可进一步加速
当前 $8 \times 8$ 角度分辨率需 9 次 pattern 切换，更高角度分辨率将线性增加采集时间
Event camera 的暗电流和噪声在低光照场景下可能降低 event image 质量
RecNet 的 CNN 架构对极高空间分辨率（如 4K）的可扩展性有待验证
仅验证了静态室内场景，室外/长距离/大基线场景未涉及

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将 event camera 引入编码光圈光场成像，black pattern 等价性定理具有理论原创性
实验充分度: ⭐⭐⭐⭐ — 合成 + 真实硬件验证 + 消融完整，但真实场景多样性有限
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，从物理模型到系统设计逻辑通顺
价值: ⭐⭐⭐⭐⭐ — 开辟了 event-based 计算光场成像新方向，理论贡献与工程实践俱全
价值: 待评