選自arXiv,作者:Kaidi Cao、Jing Liao、Lu Yuan,機器之心編譯。

來自清華、香港城市大學和微軟的研究者最近提出了 CariGAN,可以在沒有成對影象的情況下將真人照片自動轉換成形式誇張的漫畫。目前這篇論文已經被 SIGGRAPH Asia 2018 大會收錄。

漫畫可被定義為透過素描、鉛筆筆畫或其他藝術形式以簡化或誇大的形式描繪人物的形式(通常是面部)。作為傳達幽默或諷刺的一種形式,漫畫通常用於娛樂,作為禮品或紀念品,也可由街邊藝術家創作。藝人可以從被畫者面部捕捉到獨特的特徵,並進行誇大和藝術化。

眾所周知,我們能看到的絕大多數照片和漫畫的例子都是不成對的,所以直接進行「翻譯」是不可行的,我們無法透過有監督學習來訓練計算機實現這種風格遷移,如自編碼器、Pix2Pix,或是其他適用於成對影象的神經網路。

降維打擊:這款GAN可以讓真人「二次元化」

圖 1。 人臉漫畫化結果對比。(b)為手繪漫畫,(c)為風格遷移自動生成,(d)為 CycleGAN,(e)和(f)為新論文的結果。其中(d)(e)(f)都是在同一個資料集上進行訓練的。

總而言之,生成漫畫有兩個關鍵:形狀誇張和外觀風格化,如圖 1 (a)(b) 所示。在這篇論文中,研究者提出了一個用於非成對影象到漫畫轉換的 GAN,他們將其稱之為「CariGANs」。該網路會使用兩個元件以明確模擬人臉漫畫的幾何誇張形狀和外觀風格。

其中 CariGeoGAN 只建模幾何到幾何的形狀轉換,即人臉影象形狀到人臉漫畫形狀的轉換。另外一個元件 CariStyGAN 會將漫畫中的外表風格轉換到人臉影象中,並且不產生任何幾何形變。兩個 GAN 進行獨立的訓練,這可以令學習過程更加魯棒。

為了構建非成對影象間的關係,CariGeoGAN 和 CariStyGAN 都使用 cycle-consistency 的網路結構,它廣泛應用於交叉領域或無監督影象轉換任務中。最後,誇張的形狀對經過風格遷移的人臉進行變形,從而獲得最終的輸出結果。

CariGeoGAN 使用人臉特徵點的 PCA 表徵作為 GAN 的輸入和輸出。該表徵隱性地強制執行該網路中較為重要的人臉形狀約束。此外,研究者還在 CariGeoGAN 中考慮新的特徵損失(characteristic loss),以鼓勵獨特人臉特徵的誇張表達,避免不規則失真。CariGeoGAN 輸出人臉特徵點位置,而不是影象,這樣在影象實現形狀變形之前可以調整誇張程度。這使得輸出結果可控,且具備幾何形狀多樣性。

至於風格,CariStyGAN 用於畫素到畫素的遷移,不會產生任何幾何變形。為了排除訓練 CariStyGAN 時的幾何推斷,研究者透過 CariGeoGAN 的逆幾何對映將所有原始漫畫變形為人臉影象的形狀,從而建立中間漫畫資料集。

總體而言,本文的貢獻可以總結為以下幾點:

展示了非成對照片到漫畫轉換的首個深度神經網路。

展示了用於幾何誇張的 CariGeoGAN,是使用 cycle-consisteny 的 GAN 實現幾何形狀跨域轉換的首次嘗試。

展示了用於外觀風格化的 CariStyGAN,允許多模態影象轉換,同時透過新增感知損失保留生成漫畫的一致性。

該 CariGAN 允許使用者僅透過調參或給出一個示例漫畫來控制幾何形狀與外觀風格中的誇張程度。

論文:CariGANs: Unpaired Photo-to-Caricature Translation

降維打擊:這款GAN可以讓真人「二次元化」

論文連結:

https://

arxiv。org/pdf/1811。0022

2。pdf

摘要:

人臉漫畫是一種用誇張手法傳遞幽默感或諷刺性的人臉繪畫藝術形式。本研究提出首個用於非成對影象轉漫畫的生成對抗網路(GAN)——CariGANs。它顯性地使用兩個元件建模幾何誇張線條和外觀風格:CariGeoGAN,僅建模從人臉影象到漫畫的幾何變換;CariStyGAN,將漫畫的外觀風格遷移到人臉影象,且不存在任何幾何變形。透過這種方式,一個困難的跨域轉換問題被分解成兩個較為簡單的任務。從感官角度來看,CariGANs 生成的漫畫與人類手繪的漫畫相差無幾,同時與當前最優的方法相比,CariGANs 生成的漫畫更好地儲存了人臉特徵的一致性。此外,CariGANs 允許使用者調整引數或者為使用者提供示例漫畫,從而使使用者可以控制幾何線條誇張程度、改變漫畫的顏色/紋理風格。

方法

就漫畫生成而言,之前基於示例學習的方法對成對影象-漫畫資料非常依賴,需要藝術家為每張影象繪製對應的漫畫。因此構建這樣的成對影象資料集是不可行的,因為成本極高且需要花費大量時間。而本文提出的方法如下圖所示利用兩個 GAN 分別學習幾何形變與風格,從而藉助 CycleGAN 的思想處理非成對影象的轉換。

降維打擊:這款GAN可以讓真人「二次元化」

圖 2:本研究提出方法的整體流程圖。輸入影象來自 CelebA 資料集。

降維打擊:這款GAN可以讓真人「二次元化」

圖 3:第一行影象是來自人像資料庫的部分樣本,第二行是漫畫。

降維打擊:這款GAN可以讓真人「二次元化」

圖 4:CariGeoGAN 的架構。它基本上遵循 CycleGAN 的網路結構,cycle Loss 為 L_cyc,對抗損失為 L_gan。但是我們的輸入和輸出是向量而非影象,我們添加了 characteristic loss L_cha 以增加人物的獨特特徵。

降維打擊:這款GAN可以讓真人「二次元化」

圖 8:CariStyGan 架構。為簡潔起見,此處我們僅展示了 X → Y ′ 變換的網路架構。Y ′ → X 變換的網路架構與該架構對稱。輸入影象來自 CelebA 資料集。

降維打擊:這款GAN可以讓真人「二次元化」

圖 7:CariStyGAN 與 CycleGAN 和 MUNIT 的對比。所有網路使用同樣的資料集進行訓練來學習外觀風格對映 X ⇒ Y ′

降維打擊:這款GAN可以讓真人「二次元化」

圖 10:在 CariGeoGAN 中使用 PCA 表徵和使用 2D 座標的對比。輸入影象來自 CelebA 資料集

對比和結果

降維打擊:這款GAN可以讓真人「二次元化」

圖 12:風格嵌入系統的 T-SNE 視覺化。其中灰點表示影象、紅點表示手繪的人臉漫畫、綠點表示生成的結果。一種不同點所對應的示例影象以對應的色彩框標註出來

降維打擊:這款GAN可以讓真人「二次元化」

圖 16:對比基於深度學習的人臉漫畫方法,從左到右分別為兩種一般的影象風格遷移方法、兩種基於面部特性的風格遷移方法、兩種單模型影象轉換網路和多模態影象轉換網路(MUNIT)。輸入影象都選自 CelebA 資料集中,但除去了用於訓練的 10K 張影象。

降維打擊:這款GAN可以讓真人「二次元化」