編輯:Happy

首發:

AIWalker

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

Paper:

https://

arxiv。org/abs/2103。1506

1

code:

https://

github。com/yzxing87/Inv

ertible-ISP

本文是港科大陳啟峰老師團隊在ISP方面的工作,已中CVPR2021。針對傳統ISP中的資訊損失且難以從sRGB進行RAW資料重建的問題,我們設計了一種可逆影象訊號處理方案(InvISP),它對RGB渲染與RAW重建進行聯合最佳化。受益於所提方案的可逆性,我們可以直接從sRGB資料重建真實RAW資料且不會造成額外記憶體開銷。所提方法對於raw資料壓縮、retouch以及HDR等任務均有非常好的輔助作用。

Abstract

對於影象編輯與計算機視覺而言,未經處理的RAW資料是一種具有高度價值的影象格式。然而,由於RAW資料會導致儲存的檔案過大,使用者往往只能獲得處理並壓縮後的sRGB影象。

為填補這一空缺,我們設計了一種可逆ISP(Invertible Image Signal Processing)方案,它可以進行sRGB影象的渲染,同時可以復原近乎完美的RAW資料。受益於所提框架的可逆性,

我們可以從sRGB資料重建真實RAW資料

,而非合成,且不會導致任何額外記憶體開銷。與此同時,我們還集成了可謂分JPEG壓縮模擬器,這使得

所提框架可以直接從JPEG影象重建RAW資料

在兩個數碼相機上的定量與定性實驗表明:

相比其他,本文所提方法可以得到具有更高質量的sRGB影象與重建RAW資料

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上圖給出了本文所設計的可逆ISP流程示意圖以及潛在應用場景。本文的主要貢獻有這樣幾點:

首個從可逆ISP角度出發進行RAW資料重建的方案;

解決了ISP模組中的資訊損失問題,且對JPEG壓縮魯棒;

在兩個數碼相機資料上驗證了所提方案的有效性,並在多個應用場景(比如retouch、HDR等)驗證了其潛在應用價值。

Traditional ISP Analysis

在正式介紹本文方案之前,我們先來看一下傳統ISP對於RAW資料重建存在的挑戰。現代數碼相機透過ISP(它由一系列操作構成,包含白平衡、去馬賽克、降噪、顏色空間轉換、色調對映等)將RAW資料渲染為人眼可感知的RGB影象。傳統ISP中的每一步都需要針對特定相機進行微調,這使得逆轉傳統ISP極具挑戰。

接下來,我們將對傳統ISP中存在資訊損失的模組進行分析,並針對對性的進行重設計ISP使其成為一種端到端可逆ISP。

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

Quantization & Tone Mapping。ISP的某些步驟(如去馬賽克、gamma壓縮)包含浮點操作,因此量化對於將資料轉換到整數空間非常重要。比如,round操作理論上會帶來

(-0.5,0.5)

的灰度誤差。然而,tone mapping會進一步放大該灰度誤差,上圖給出了tonemapping曲線示意圖。對於14-bit的raw資料,gamma壓縮會使得

[16313, 16383]

範圍的資料壓縮到255灰度,該步驟會導致單畫素0。004RMSE誤差。因此,直接從8-bit的sRGB資料合成14-bit的RAW資料極具挑戰;

Out-range Value Clipping。數值截斷是一種常用的將raw數值規範化到合理範圍的操作,常見於色彩空間轉換、去馬賽克、降噪、tone mapping等操作。傳統ISP需要獨立的進行手動調節,導致了誤差累積,進一步加劇了資訊損失。

JPEG Compression。現代數碼相機往往將RGB影象儲存為JPEG格式,這會進一步加劇RAW影象重建的難度。JPEG包含四個步驟:顏色空間轉換、離散餘弦變換、量化、熵編碼。事實上,

量化是JPEG僅有的存在損失且非可微分的步驟

。由於JPEG資訊損失難以逆轉,我們採用了一種“妥協”方式:

將JPEG壓縮步驟整合到所提框架中以消除資訊損失

Invertible Image Signal Processing

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

我們的目標是:設計一種可逆、雙攝函式

f: \mathcal{X} \rightarrow \mathcal{Y}

用於RAW資料空間與sRGB資料空間之間的對映。我們假設RAW資料空間為

\mathcal{X}

,sRGB資料空間為

\mathcal{Y}

。為達到上述目的,經典神經網路需要兩個獨立網路近似

\mathcal{X} \rightarrow \mathcal{Y}

\mathcal{Y} \rightarrow \mathcal{X}

,這會導致不精確的雙攝對映。

我們從另一個角度出發,採用仿射耦合層(affine coupling layers)使得單個網路可以進行雙向對映。也就是說:我們採用多個可逆雙攝函式

\{f_i\}_{i=0}^k

構成了所提可逆ISP。對於觀測資料x,我們可以得到目標資料y:

y = f_0 \circ f_1 \circ f_2 \circ \cdots \circ f_k(x)  \\ x = f_k^{-1} \circ f_{k-1}^{-1} \circ \cdots \circ f_0^{-1}(y) \\

每個

f_i

透過仿射耦合層實現,對於每個仿射耦合層,給定D維輸入

\mathbf{m}

與$d

\mathbf{n}_{1:d} = \mathbf{m}_{1:d}  \\ \mathbf{n}_{d+1:D} = \mathbf{m}_{d+1:D} \odot exp(s(\mathbf{m}_{1:d})) + t(\mathbf{m}_{1:d}) \\

其中,

s, t

表示

R^d \mapsto D^{D-d}

的尺度與變換函式。由於兩者沒必要可逆,故而我們透過神經網路進行實現。正如已有研究提到:耦合層遺留某些輸入通道保持不變會限制了整個架構的表達能力。為緩解該問題,我們透過如下方式對耦合層增強:

\mathbf{n}_{1:d} = \mathbf{m}_{1:d} + r(\mathbf{m}_{d+1:D}) \\

逆轉操作可以輕易得到,描述如下:

\mathbf{m}_{d+1:D} = (\mathbf{n}_{d+1:D} - t(\mathbf{n}_{1:d})) \odot exp(-s(\mathbf{n}_{1:d})) \\ \mathbf{m}_{1:d} = \mathbf{n}_{1:d} - r(\mathbf{m}_{d+1:D}) \\

接下來,我們採用可逆

1\times 1

卷積作為可學習置換函式為下一個仿射耦合層逆轉通道順序。

對於本文的image-to-image轉換任務,我們直接學習RAW-to-RGB對映,無需對隱分佈進行顯示建模以穩定訓練。考慮到可逆神經網路的輸入與輸出解析度應當相同,我們採用去馬賽克後RAW資料的雙線性插值作為輸入,這不會破壞RAW資料質量。

InvISP的前向過程生成sRGB影象,反向過程則旨在重建RAW資料。我們採用

L_1

損失進行雙向訓練:

L = \|f(x) - y\|_1 + \lambda \| f^{-1}(y) - x \|_1 \\

Differentiable JPEG Simulator

我們的目標是:

訓練一個魯棒的可逆ISP,它可以容忍JPEG壓縮導致的失真並重建精確的RAW資料

。然而JPEG壓縮演算法是不可微分的,無法直接整合到前述所提端到端方案中。因此,

我們提出一種可微分JPEG模擬器以使得所提方案與JPEG壓縮魯棒

由於JPEG中的熵編碼是無損的且位於量化之後,因此我們直接跳過該步驟僅僅模擬色彩空間變換、DCT以及量化三個步驟。為模擬DCT過程,我們計算DCT係數並將輸入拆分為

8\times 8

塊,每個塊乘以DCT係數得到DCT特徵圖。在JPEG壓縮中,所提DCT圖由量化表拆分並round到整數型別。由於round函式不可微分,故而我們基於傅立葉變換設計了一種可微分版round函式,描述如下:

Q(I) = I - \frac{1}{\pi} \sum_{k=1}^K \frac{(-1)^{k+1}}{k} sin(2\pi kI) \\

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

隨著K的增大,上述模擬函式會逐漸逼近真實round函式,但執行時間也會同樣提升。上圖給出了K=10時的round過程示意圖。

Experiments

資料集方面:我們從MIT-Adobe FiveK中收集Canon EOS5D(777對)與Nikon D700(590對)子集製作訓練與測試資料。我們對每個相機的資料按照

85:15

比例進行劃分;採用LibRaw庫處理Raw資料得到sRGB影象;JPEG壓縮方面,質量設為90。

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上表從定量角度對比了所提方法與UPI、CycleISP等方法的效能對比。可以看到:

相比UPI與CycleISP,

所提方法可以重建更精確的RAW資料(PSNR甚至可以高出15dB)

。這個結果並不驚訝:因為ISP中的資訊損失是非常難以逆轉的,這會導致比較差的合成Raw重加結果;而InvISP可以同時進行RGB與RAW重建最佳化。可以更好的處理量化、JPEG壓縮以及數值截斷等導致的資訊損失。

相比InvGrayScale與UNet基線模型,所提方法同樣具有更好的結果,這意味

InvISP提供了一個更強的RAW資料重建方案

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上圖從定性角度對比了所提方法與UPI、CycleISP的視覺化效果對比。可以看到:

本文所提InvISP可以更好的重建RAW資料,甚至在高光區域都能很好重建

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上圖從定性角度對比了所提方法與InvGrayscale、UNet的視覺化效果。可以看到:InvGrayscale難以在RGB與RAW之間取得比較好的均衡;而Unet可以取得比較的RGB結果,但在RAW重建方面表現較差;

本文所提方法可以重建高質量的RAW資料且不會犧牲RGB效能

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上表給出了所提方法在RAW資料壓縮方面的效能對比。可以看到:

相比有損DNG,所提方法可以進行更高比例的壓縮

CVPR2021|單個網路支援sRGB渲染與RAW資料重建,港科大陳啟峰團隊提出可逆ISP

上圖給出了本文所提方法在retouch與HDR方面的應用效果。從中可以看到:

重建RAW資料與相機拍攝的RAW具有無法區分的視覺質量;

所提方法可以消除HDR過程中的過曝區域&欠曝區域的資訊損失問題,進而取得更好的HDR重建結果。

推薦閱讀

你的感知損失可能用錯了,沈春華團隊提出隨機權值廣義感知損失

CVPR2021|超分效能不變,計算量降低50%,董超等人提出用於low-level加速的ClassSR

SANet|融合空域與通道注意力,南京大學提出置換注意力機制

GhostSR|針對影象超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR

影象超分中的那些知識蒸餾

ICLR2021 | 顯著提升小模型效能,亞利桑那州立大學&微軟聯合提出SEED

RepVGG|讓你的ConVNet一卷到底,plain網路首次超過80%top1精度

Transformer再下一城!low-level多個任務榜首被佔領

通道注意力新突破!從頻域角度出發,浙大提出FcaNet

無需額外資料、Tricks、架構調整,CMU開源首個將ResNet50精度提升至80%+新方法

46FPS+1080Px2超分+手機NPU,arm提出一種基於重引數化思想的超高效影象超分方案

動態卷積超進化!通道融合替換注意力,減少75%引數量且效能顯著提升 ICLR 2021

CVPR2021|“無痛漲點”的ACNet再進化,清華大學&曠視科技提出Inception型別的DBB

- END -