【學習筆記】基於外觀在自然場景下的視線估計

論文目的:可能這篇論文是將深度學習運用在視線估計方向的開山之作,德國馬普研究所Xucong Zhang博士提出了一個類似於LeNet的淺層網路,將頭部姿態資訊與提取出來的眼睛特徵拼接,用以學習相機座標系的gaze。

該論文另外一個重要貢獻是提出並且公開了gaze領域目前最常用的資料集之一MPIIGaze,該工作的誤差為6。3度。

論文連結:

論文程式碼:該論文的復現是北航Phi-ai實驗室的工作,個人認為該實驗室將這項工作取名為Mnist是認為Zhang博士提出的網路類似於淺層的LeNet網路。

1。Introduction

論文中提到了作者的工作對視線估計有三個方面的貢獻:

提出了一個自然場景下的視線估計資料集:

MPIIGaze

在三個當前的資料集(包括自己的資料集上)對最先進的視線估計算法進行了廣泛的評估;

使用了多模態卷積神經網路,在跨資料集的評估上顯著優於最先進的視線估計算法。

2。相關工作

2。1 視線估計方法

論文先提出了基於模型的視線估計方法有很多不足之處,然後提出基於外觀的視線估計方法直接使用眼睛作為輸出,並且能適應低解析度的眼睛圖片。(總之,作者在這裡是吹了一波基於外觀的視線估計方法)

2。2 免標定的視線估計

作者的工作是第一個評估整個流程的視線估計方法。

2。3 資料集

作者的實驗使用了三種資料集,分別是作者自己建立的資料集

MPIIGaze

,還有影片形式的資料集

Eyediap

UT Multiview

3。MPIIGaze

作者花了很大的篇幅介紹了

MPIIGaze

,透過比較收集方式、照片光照和背景、頭部角度和視線角度的分佈等各個方面介紹了該資料集的優點。事實證明,在之後的視線估計方面,該資料整合為了經典資料集。

4。方法

【學習筆記】Appearance-Based Gaze Estimation in the Wild

上圖概述了作者提出的多模態卷積神經網路進行自然環境狀態下的視線估計的方法。首先,利用了最先進的人臉檢測和人臉特徵點檢測的方法,獲取眼睛的定位。接著運用資料歸一化,將眼睛圖片和頭部角度向量輸入CNN網路中,用於估計視線角度向量

g

4。1 人臉對齊以及3D頭部姿態估計

作者使用的方法出自於論文

Learning-by-synthesis for appearance-based 3d gaze estimation.

4。2 資料標準化

4。3 多模態CNN的視線估計

【學習筆記】Appearance-Based Gaze Estimation in the Wild

這個神經網路類似於LeNet網路,簡單比較一下,發現該CNN最後的全連線層比CNN少了一層。頭部角度向量

h

被加在全連線層的輸出上。

5。實驗

5。1 跨資料集評估

作者利用之前傳統且效果較好的演算法進行比較,包括了隨機森林,K最近鄰演算法,ALR演算法等,同時得出比較結論:在兩個資料集Eyediap和MPIIGaze上,作者提出的CNN網路都是明顯優於傳統方法。

5。2 資料集內估計

作者使用了一種交叉驗證的方法:

leave-one-person-out

在網上查閱資料後,找到了

leave-one-out 留一法

就是每次只留下一個樣本做測試集,其他樣本做測試集,如果有k個樣本,則需要訓練k次,測試k次。該方法樣本利用率高,適用於小樣本。

這裡的留一人交叉驗證方法,是指在15個參與者中選出1人作為驗證集進行訓練,這樣做的主要目的是為了讓模型的泛化能力更強,適用於新的受測者。

6。總結

工作放在現在深度學習網路更加複雜的今天,看似很簡單。但是將Gaze領域引入了深度學習方法,就變得尤其重要了。