本文是中國科學技術大學和微軟亞洲研究院聯合發表的,已中選CVPR2019,原文連結為:

作者還開源了程式碼:

摘要

在本文中,我們對人體姿勢估計問題感興趣,重點是學習可靠的高解析度表示。 大多數現有方法從由高到低解析度網路產生的低解析度表示中恢復高解析度表示。 相反,我們建議的網路在整個過程中保持高解析度的表示。

我們從高解析度子網開始作為第一階段,逐個逐步新增高到低解析度子網以形成更多階段,同時並行連線多個子網。 我們進行重複的多尺度融合,使得高到低解析度表示中的每一個一遍又一遍地從其他並行表示接收資訊,從而獲得豐富的高解析度表示。 因此,預測的關鍵點熱圖可能更準確,空間上也更精確。 我們透過在兩個基準資料集:COCO關鍵點檢測資料集和MPII人體姿勢資料集上的優越姿態估計結果,證明了我們網路的有效性。此外,我們展示了我們的網路在PoseTrack資料集上的姿勢跟蹤的優越性。 程式碼和模型已在

https://

github。com/leoxiaobin/

deep-high-resolution-net。pytorch上公開發布。

1、介紹

2D人體姿勢估計一直是計算機視覺中的一個基本但具有挑戰性的問題。它的目標是定位人體解剖學關鍵點(例如,肘部,腕部等)或部位。 它有許多應用,包括人類動作識別,人機互動,動畫等。本文對單人姿態估計感興趣,這是其他相關問題的基礎,如多人評估,影片姿勢估計和跟蹤等。

最近的發展表明,深度卷積神經網路已經達到了最先進的效能。 大多數現有方法透過網路傳遞輸入,通常由串聯連線的高到低解析度子網組成,然後提高解析度。 例如,Hourglass透過對稱的低到高過程恢復了高解析度。 SimpleBaseline採用一些轉置卷積層來生成高解析度表示。 此外,擴張的卷積也用於放大(blow up)高到低解析度網路的後期層(例如,VGGNet或ResNet)。

我們提出了一種新穎的架構,即高解析度網路(HRNet),它能夠在整個過程中保持高解析度表示。 我們從高解析度子網開始作為第一階段,逐個逐個新增高到低解析度子網以形成更多階段,並且並行連線多解析度子網。 我們透過在整個過程中反覆交換並行多解析度子網路中的資訊來進行重複的多尺度融合。 我們估計了網路輸出的高解析度表示的關鍵點。 得到的網路如圖1所示。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖1、本文提出的HRNet的架構說明

【圖1:它由並行的高到低解析度子網路組成,跨多解析度子網路進行重複資訊交換(多規模融合)。水平和垂直方向分別對應於網路的深度和特徵圖的比例。】

與用於姿勢估計的現有廣泛使用的網路相比,我們的網路有兩個好處。(i)我們的方法並行連線高低解析度子網,而不是像大多數現有解決方案那樣串聯連線。 因此,我們的方法能夠保持高解析度而不是透過從低到高的過程恢復解析度,因此預測的熱圖可能在空間上更精確。(ii)大多數現有的融合方案彙總了低級別和高級別的表示。 相反,我們在相同深度和相似水平的低解析度表示的幫助下執行重複的多尺度融合以提升高解析度表示,反之亦然,導致高解析度表示對於姿勢估計也是豐富的。 因此,我們預測的熱圖可能更準確。

我們透過實驗證明了兩個基準資料集:COCO關鍵點檢測資料集和MPII人體姿態資料集的優越關鍵點檢測效能。此外,我們在PoseTrack資料集上展示了我們的網路在影片姿態跟蹤中的優越效能。

2、相關工作

單人姿勢估計的大多數傳統解決方案採用機率圖形模型或圖形結構模型,最近透過利用深度學習來更好地模擬一元和成對能量或模仿迭代推理過程進行了改進。目前,深度卷積神經網路提供主導解決方案。 有兩種主流方法:1、迴歸關鍵點的位置;2、估算關鍵點熱圖,然後選擇熱值最高的位置作為關鍵點。

用於關鍵點熱圖估計的大多數卷積神經網路包括類似於分類網路的stem子網,它能降低解析度,主體產生具有與其輸入相同解析度的表示,隨後是迴歸器估計關鍵點位置的熱圖估計,然後轉換為全解析度。 主體主要採用從高到低和從低到高的框架,可能增加了多尺度融合和中間(深度)監督。

High-to-low and low-to-high.

從高到低的過程旨在產生低解析度和高水平的表示,而從低到高的過程旨在產生高解析度表示。 這兩個過程都可能重複幾次以提高效能。

代表性的網路設計模式包括: (i)對稱的從高到低和從低到高的過程。Hourglass及其後續工作將低到高的過程設計為高到低過程的一面鏡子。(ii)Heavy high-to-low and light low-to-high。 從高到低的過程基於ImageNet分類網路,例如[11, 72]中採用的ResNet,而從低到高的過程只是一些雙線性上取樣[11]或轉置卷積層。(iii)與dilated卷積相結合。 [27,51,35]中,在ResNet或VGGNet的最後兩個階段採用dilated卷積來消除空間解析度損失,然後是一個輕微的低到高過程,以進一步提高解析度,避免昂貴的僅使用dilated卷積的計算成本。 圖2描繪了四個代表性的姿勢估計網路。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖2、依賴於從高到低和從低到高的框架的代表性姿態估計網路的圖示。

【圖2:(a)Hourglass。 (b)級聯金字塔網路。 (c)SimpleBaseline: 用於從低到高處理的轉置卷積。 (d)與dilated卷積相結合。 右下角的圖例:reg。=常規卷積,dilated=dilated卷積,trans。 =轉置卷積,strided = strided convolution,concat。=連線。 在(a)中,從高到低和從低到高的過程是對稱的。 在(b), (c)和(d)中,從高到低的過程,是分類網路(ResNet或VGGNet)的一部分,很重,然而從低到高的過程很輕。 在(a)和(b)中,從高到低和從低到高處理的相同解析度層之間的跳過連線(虛線)主要旨在融合低階和高階特徵。 在(b)中,右側部分refinenet結合了透過卷積處理的低階和高階特徵。】

多尺度融合。

直接的方法是將多解析度影象分別饋送到多個網路中並聚合輸出響應圖。 Hourglass及其擴充套件將從高到低的過程中的低階特徵結合到從低到高過程中的相同解析度的高階特徵,逐步透過skip連線。 在級聯金字塔網路中,globalnet將從高到低的過程中的低到高級別特徵逐步組合到從低到高的過程,然後再融合了從低到高的特性, 透過卷積處理。 我們的方法重複多尺度融合,其部分靈感來自深度融合及其擴充套件。

中級監督。

早期開發的用於影象分類的中間監督或深度監督也被用於幫助深度網路訓練和提高熱圖估計質量。 Hourglass方法和卷積姿態機方法處理中間熱圖作為剩餘子網的輸入或輸入的一部分。

我們的方法。

我們的網路並行連線從高到低的子網。它在整個過程中保持高解析度表示,以進行空間精確的熱圖估計。它透過反覆融合由高到低子網路產生的表示來生成可靠的高解析度表示。我們的方法與大多數現有工作不同,後者需要單獨的從低到高的上取樣過程並聚合低階和高階表示。我們的方法在不使用中間熱圖監控的情況下,在關鍵點檢測精度和計算複雜性和引數效率方面具有優勢。

存在用於分類和分割的相關多尺度網路。 我們的工作部分受到其中一些人的啟發,並且存在明顯的差異,使它們不適用於我們的問題。 卷積神經結構和相互關聯的CNN由於每個子網路(深度,批次歸一化)和多尺度融合缺乏適當的設計而無法產生高質量的分割結果。 網格網路是許多權重共享U-Nets的組合,由跨多解析度表示的兩個獨立融合過程組成:在第一階段,資訊僅從高解析度傳送到低解析度; 在第二階段,資訊僅從低解析度傳送到高解析度,因此競爭力較弱。 多尺度的密集網路沒有目標,也無法生成可靠的高解析度表示。

3、技術方法

人體姿勢估計,即關鍵點檢測,旨在從尺寸為W×H×3的影象I中檢測K個關鍵點或部位(例如,肘部,手腕等)的位置。 最先進的方法將此問題轉換為估計尺寸為

W^{

的K個熱圖{

H_{1}

H_{2}

,。。。,

H_{K}

},其中熱圖

H_{K}

表示第k個關鍵點的位置資訊。

我們遵循廣泛採用的pipeline來使用卷積網路來預測人體關鍵點,卷積網路由一個由兩個跨度卷積組成的stem組成,降低了解析度,主體輸出的解析度與它的輸入feature map的解析度相同, 和估計選擇關鍵點位置並轉換為全解析度的熱圖的迴歸量。 我們專注於主體的設計,並介紹我們的高解析度網路(HRNet),如圖1所示。

順序多解析度子網。

用於姿態估計的現有網路是透過串聯連線high-to-low解析度子網來構建的,其中組成一個stage的每個子網由一系列卷積組成,並且在相鄰子網之間存在下采樣層以將解析度減半。

N_{sr}

成為第s階段的子網,r是解析度索引(其解析度是第一個子網解析度的

\frac{1}{2^{r-1}}

)。 具有S(例如,4)級的高到低網路可以表示為:

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

並行多解析度子網。

我們從高解析度子網開始作為第一階段,逐步一個一個新增高到低解析度的子網,形成新的stage,並且並行連線多解析度子網。 因此,後一階段並行子網的解析度包括前一階段的解析度和一個更低的解析度。

包含4個並行子網的示例網路結構如下,

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

反覆多尺度融合。

我們在並行子網中引入交換單元,使每個子網重複接收來自其他並行子網的資訊。 這是一個顯示交換資訊方案的例子。 我們將第三階段劃分為幾個(例如3個)交換塊,每個塊由3個並行卷積單元組成,交換單元跨越並行單元,如下所示,

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

其中

C_{sr}^{b}

表示第s階段中第b個塊的第r個解析度中的卷積單位,而

\varepsilon_{s}^{b}

是相應的交換單位。

我們在圖3中說明了交換單元,並在下面給出了公式。我們刪除下標s和上標b以方便討論。輸入是響應圖:{

X_{1}

X_{2}

,。。。,

X_{S}

}。輸出是響應圖:{

Y_{1}

Y_{2}

,。。。,

Y_{S}

},其解析度和寬度與輸入相同。每個輸出是輸入對映的集合,

Y_{k} = \sum_{i=1}^{s}{a(X_{i}, k)}

。跨階段的交換單元具有額外的輸出對映

Y_{s+1} : Y_{s+1} = a(Y_{s}, s+1)

函式

a(X_{i}, k)

包括從解析度i到解析度k的上取樣或下采樣

X_{i}

。 我們採用跨步的3×3卷積進行下采樣。 例如,一個跨步3×3卷積,步幅2用於2×下采樣,兩個連續跨步3×3卷積,步幅2用於4倍下采樣。 對於上取樣,我們採用1×1卷積後的簡單最近鄰取樣來對齊通道數。 如果i = k,則

a(\cdot, \cdot)

只是一個識別連線:

a(X_{i}, k) = X_{i}

熱圖估計。

我們簡單地從最後一個交換單元輸出的高解析度表示迴歸熱圖,這在實驗上很有效。 損失函式,定義為均方誤差,用於比較預測的熱圖與真實熱圖。 透過應用具有以每個關鍵點的群集位置為中心的1畫素的標準偏差的2D高斯來生成真實heatmaps。

網路例項化。

我們透過遵循ResNet的設計規則來例項化關鍵點熱圖估計的網路,以將深度分佈到每個階段以及每個解析度的通道數量。

網路主體,即我們的HRNet,包含四個具有四個並行子網的stage,其解析度逐漸減小到一半,因此寬度(通道數)增加到兩倍。第一階段包含4個殘差單元,其中每個單元(與ResNet-50相同)由頻寬為64的瓶頸形成,然後是一個3×3卷積,將特徵對映的寬度減小為C。第二階段,第三,第四階段分別包含1, 4, 3個交換塊。一個交換塊包含4個剩餘單元,其中每個單元在每個解析度中包含兩個3×3卷積,以及跨越解析度的交換單元。總之,總共有8個交換單元,即進行了8次多尺度融合。在我們的實驗中,我們研究了一個小網路和一個大網路:HRNet-W32和HRNet-W48,其中32和48分別代表最後三個階段中高解析度子網的寬度(C)。 HRNet-W32的其他三個並行子網的寬度為64, 128, 256,HRNet-W48的寬度為96, 192, 384。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖3、說明交換單元如何分別從左到右聚合高,中和低解析度的資訊。

【圖3:右邊的圖例:跨步3×3 =跨步3×3卷積,上升。 1×1 = 1×1卷積後的最近鄰上取樣。】

4、實驗結果

4.1、COCO關鍵點檢測

資料集。

COCO資料集包含超過200,000個影象和250個用17個關鍵點標記的人物例項。 我們在COCO train2017資料集上訓練我們的模型,包括57K影象和150K人物例項。 我們在val2017資料集和test-dev2017資料集上評估我們的方法,分別包含5000個影象和20K影象。

評估指標。

標準評估指標基於物件關鍵點相似性(OKS):

OKS= \frac{\sum_{i}^{}{exp(-\frac{d_{i}^{2}}{2s^{2}k_{i}^{2}})\delta(v_{i}>0)}}{\sum_{i}^{}{\delta(v_{i}>0)}}

。這裡

d_{i}

是檢測到的關鍵點與相應的真實值之間的歐幾里德距離,

v_{i}

是真實值的可見性,s是物件尺度,

k_{i}

是控制衰減的每個關鍵點常數。 我們報告標準平均精度和召回得分:

AP^{50}

(AP at OKS = 0。50)

AP^{75}

,AP(AP位置在10個位置的平均值,OKS = 0。50,0。55,。。。,0。90,0。95;

AP^{M}

用於中等物件,

AP^{L}

對於大型物件,AR在OKS = 0。50,0。55,。。。,0。90,0。955。

訓練。

我們將人體檢測框的高度或寬度擴充套件為固定的寬高比:高度:寬度= 4:3,然後從影象中裁剪框,將其尺寸調整為固定尺寸,256×192或384×288。 資料增強包括隨機旋轉([-45°,45°]),隨機縮放([0。65,1。35])和翻轉。 在[68]之後,還涉及半身資料增加。

我們使用Adam最佳化器[32]。 學習計劃遵循設定[72]。 基礎學習率設定為1e-3,並分別在第170和第200個epoch下降到1e-4和1e-5。 訓練過程在210個epoch內終止。

測試。

使用類似於[47,11,72]的兩階段自上而下的範例:使用人物檢測器檢測人物例項,然後預測檢測關鍵點。

對於驗證集和test-dev集我們使用SimpleBaseline2 提供的同一個人檢測器。 按照慣例[72,40,11],我們透過平均原始影象和翻轉影象的headmaps來計算熱圖。 透過調整最高熱值位置在從最高響應到第二高響應的方向上具有四分之一偏移來預測每個關鍵點位置。

在驗證集上的結果。

我們報告了方法的結果和表1中的其他最先進的方法。我們的小型網路 - HRNet-W32,從頭開始訓練,輸入大小為256×192,達到73。4 AP分數,在相同的輸入大小情況下優於其他方法。 (i)與Hourglass [40]相比,我們的小型網路將AP提高了6。5個點,我們網路的GFLOP低得多且不到一半,而引數數量相似,我們的數量略大。 (ii)與CPN w / o和w / OHKM相比,我們的網路具有稍大的模型尺寸和稍高的複雜度,分別獲得4。8和4。0點的增益。 (iii)與之前表現最佳的SimpleBaseline相比,我們的小型網HRNet-W32獲得了顯著的改進:主幹ResNet-50獲得3。0分,具有相似的模型尺寸和GFLOP,以及骨幹ResNet152的1。4分增益,其模型大小(#Params)和GLOP是我們的兩倍。

我們的網路可以從(i)針對ImageNet分類問題預訓練的模型中獲得訓練:HRNet-W32的增益為1。0分; (ii)透過增加寬度來增加容量:我們的大網路HRNet-W48分別對輸入尺寸256×192和384×288獲得了0。7和0。5的改進。

考慮到輸入尺寸為384×288,我們的HRNet-W32和HRNet-W48得到75。8和76。3 AP,與輸入尺寸256×192相比有1。4和1。2的改進。與使用ResNet -152作為主幹網路的SimpleBaseline 相比,我們的HRNet-W32和HRNetW48分別以45%和92。4%的計算成本獲得1。5和2。0點的增益。

test-dev集的結果。

表2報告了我們的方法和現有技術方法的姿態估計效能。 我們的方法明顯優於自下而上的方法。 另一方面,我們的小型網路HRNet-W32實現了74。9的AP。 它優於所有其他自上而下的方法,並且在模型大小(#Params)和計算複雜度(GFLOP)方面更有效。 我們的大型網路HRNet-W48達到了最高的75。5 AP。 與具有相同輸入大小的SimpleBaseline 相比,我們的小型和大型網路分別獲得1。2和1。8的改進。 透過AI Challenger 的額外資料進行訓練,我們的單個大型網路可以獲得77。0的AP。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表1、在COCO驗證集上的對比

【表1:Pretrain = 在ImageNet分類任務中預先訓練主幹網路。 OHKM = online hard keypoints mining。】

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表2、在COCO test-dev集上的對比

【表2:引數和FLOP是為姿勢估計網路計算的,並且不包括用於人類檢測和關鍵點分組的引數和FLOP。】

4.2、MPII人體關鍵點估計

資料集。

MPII人體姿勢資料集包含從具有全身姿勢註釋的各種現實世界活動中獲取的影象。 有大約25K影象和40K專案,其中有12K專案用於測試,其餘專案用於訓練集。 資料增強和訓練策略與MS COCO相同,只是輸入大小被裁剪為256×256,以便與其他方法進行公平比較。

測試。

測試程式幾乎與COCO中的測試程式相同,只是我們採用標準測試策略來使用提供的人體框而不是檢測到的人體框。 在[14,77,62]之後,進行六級金字塔測試程式。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表3、在MPII測試集上的效能比較(PCKh@0。5)

評估指標。

使用標準度量,PCKh(正確關鍵點的頭標準化機率)得分。 如果一個關節落在真實位置的

\alpha l

畫素內,則該關節是正確的,其中α是信標,

l

是與真實邊界框的對角線長度的60%相對應的頭部尺寸。 PCKh@0。5(α= 0。5)分數被展示出來。

測試集上的結果。

表3和表4顯示了PCKh@0。5結果,模型大小和最佳執行方法的GFLOP。 我們使用ResNet-152作為骨幹,重新實現了SimpleBaseline [72],輸入大小為256×256。我們的HRNet-W32獲得了92。3 PKCh@0。5分,並且優於堆疊hourglass 方法[40]及其擴充套件[58, 14,77,31,62]。 我們的結果與先前在2018年11月16日的排行榜上公佈的結果中的最佳結果相同[62]。我們想指出的是,與我們的方法相輔相成的方法[62]利用組合模型來 學習人體的配置,採用多層次的中間監督,我們的方法也可以從中受益。 我們還測試了我們的大型網路 - HRNetW48並獲得了相同的結果92。3。 原因可能是此資料集中的效能趨於飽和。

4.3、在姿態跟蹤上的應用

資料集。

PoseTrack [28]是人體姿勢估計和影片中關節跟蹤的大規模基準(benchmark)。 該資料集基於流行的MPII Human Pose資料集提供的原始影片,包含66,374幀的550個影片序列。 影片序列分為292, 50, 208個影片,分別用於訓練,驗證和測試。 訓練影片的長度範圍在41-151幀之間,距影片中心30幀的地方密集註釋。 驗證/測試影片中的幀數介於65到298幀之間。 來自MPII Pose資料集的關鍵幀周圍的30幀被密集註釋,之後每四幀被註釋。 總的來說,這構成了大約23,000個標記幀和153,615個構造註釋。

評估指標。

我們從兩個方面評估結果:逐幀多人姿勢估計和多人姿勢跟蹤。 姿勢估計透過平均精度(mAP)評估,如[51,28]中所做。 多人姿勢跟蹤透過多目標跟蹤精度(MOTA)評估[38,28]。 詳情見[28]。

訓練。

我們在PoseTrack2017訓練集上訓練我們的HRNet-W48用於單人姿勢估計,其中網路由在COCO資料集上預訓練的模型初始化。 我們透過將所有關鍵點(對於一個單人)的邊界框擴充套件15%的長度,從訓練框架中的註釋關鍵點提取人物框,作為我們網路的輸入。 訓練設定包括資料增強,幾乎與COCO資料集相同,只是學習策略不同(現在用於微調):學習率從1e-4開始,在第10個epoch下降到1e-5。 在第15個epoch下降到的1e-6; 迭代在20個epoch內結束。

測試。

我們按照[72]跟蹤幀的姿勢。 它包括三個步驟:人體框檢測和傳播,人體姿勢估計和在附近的幀的姿勢關聯。 我們使用SimpleBaseline [72]中使用的同一個人體框檢測器,並根據FlowNet2。0 [26]計算的光學流量傳播預測的關鍵點,將檢測到的框傳播到附近的幀中,然後對框進行非最大抑制除去。 姿勢關聯方案基於一幀中的關鍵點與根據光流從附近幀傳播的關鍵點之間的物件關鍵點相似性。 然後使用貪心匹配演算法來計算附近幀中的關鍵點之間的對應關係。 更多細節見[72]。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表4、表3中報告的一些最佳執行方法的引數和GFLOP。GFLOPs的輸入大小為256×256

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表5、PoseTrack2017測試集上的姿勢跟蹤結果

PoseTrack2017測試集的結果。

表5報告了結果。 我們的大型網路 - HRNet-W48取得了優異的成績,74。9分的mAP得分和57。9分的MOTA分數。 與使用ResNet-152作為主幹的SimpleBaseline [72]中的FlowTrack相比,我們的方法分別在mAP和MOTA方面獲得0。3和0。1點增益。 FlowTrack [72]的優勢與COCO關鍵點檢測和MPII人體姿態估計資料集的優勢一致。 這進一步暗示了我們的姿勢估計網路的有效性。

4.4、消融研究

我們研究了我們的方法中每個元件對COCO關鍵點檢測資料集的影響。 除了關於輸入大小的影響的研究之外,所有結果都是在256×192的輸入大小上獲得的。

重複多尺度融合。

我們透過實驗分析了重複多尺度融合的效果。 我們研究了三種網路變體。 (a)W / o中間交換單元(1個融合):除最後一個交換單元外,多解析度子網之間沒有交換。 (b)僅W /跨階段交換單元(3個融合):每個階段內並行子網之間沒有交換。 (c)W /跨階段和階段內交換單元(共8個融合):這是我們提出的方法。 所有網路都是從頭開始訓練的。 表6中給出的COCO驗證集的結果表明,多尺度融合是有幫助的,更多的融合導致更好的效能。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

表6、用於重複多尺度融合的交換單元的消融研究。 跨越交換=跨階段的中間交換,內部交換=階段內的中間交換。

解析度保持。

我們研究了HRNet變體的效能:所有四個高到低解析度子網都在開頭新增,深度相同; 融合方案與我們的相同。 我們的HRNet-W32和變體(具有類似的Params和GFLOP)都是從頭開始訓練並在COCO驗證集上進行測試。 該變體達到了72。5的AP,低於我們的小型網HRNet-W32的73。4 AP。 我們認為原因是從低解析度子網上的早期階段提取的低階功能不太有用。 此外,沒有低解析度並行子網的類似引數和計算複雜度的簡單高解析度網路表現出低得多的效能。

表示解析度。

我們從兩個方面研究表示解析度如何影響姿態估計效能:檢查從每個解析度從高到低的特徵圖估計的熱圖的質量,並研究輸入大小如何影響質量。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖4、MPII(頂部)和COCO(底部)資料集中的一些示例影象的定性結果:包含觀察點和外觀變化,遮擋,多人和常見的成像工件。

我們訓練我們的小型和大型網路,這些網路由為ImageNet分類預訓練的模型初始化。 我們的網路從高到低輸出四個響應圖。 最低解析度響應圖上的熱圖預測質量太低,AP分數低於10分。 圖5中報告了其他三個圖的AP分數。圖中的對比意味著解析度確實影響了關鍵點預測質量。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖5、高低解析度的消融研究。1×,2×,4×分別對應於高,中,低解析度

圖6展示了與SimpleBaseline(ResNet50)相比,輸入影象大小如何影響效能[72]。 我們可以發現較小輸入尺寸的改進比較大的輸入尺寸更顯著,例如256×192的改進為4。0分,128×96的改善為6。3分。 原因是我們在整個過程中保持高解析度。 這意味著我們的方法在實際應用中更有利,其中計算成本也是一個重要因素。 另一方面,輸入大小為256×192的方法優於輸入大小為384×288的SimpleBaseline [72]。

深度學習論文解讀(7)——人體姿態估計的深度高解析度表示學習(HRNet)

圖6、HRNet和SimpleBaseline [72]的效能如何受輸入大小的影響

5、總結和後續工作

在本文中,我們提出了一個用於人體姿態估計的高解析度網路,產生了精確和空間精確的關鍵點熱圖。 成功源於兩個方面:(i)在整個過程中保持高解析度,而無需恢復高解析度; (ii)重複融合多解析度表示,提供可靠的高解析度表示。

未來的工作包括應用於其他密集預測任務,例如語義分割,物件檢測,面部對齊,影象轉換,以及以較輕的方式聚合多解析度表示的研究。 所有這些都可以在

處獲得。