經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法：自適應訓練樣本選擇

前言

本文介紹一篇CVPR2020的論文，它在paperswithcode上獲得了939星，谷歌學術上有261的引用次數。

論文主要介紹了目標檢測現有的研究進展、anchor-based和anchor-free的背景和各自的方法差異，並提出了一種新的正負樣本選擇方案，用於消除這兩者之間的差距。

注：論文講述了很多關於anchor方面的知識，這篇文章保留了較多原論文中的內容，在介紹新方法的同時，可作為進一步理解anchor的文章。

論文：Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

程式碼：

https：//

github。com/sfzhang15/AT

點個關注，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

Background

近年來，隨著卷積神經網路的發展，目標檢測已被基於anchor-based的檢測器所主導，大致可分為one-stage方法和two-stage方法。他們都首先在影象上平鋪大量預設的anchor，然後預測類別並將這些anchor的座標細化一次或幾次，最後輸出這些細化的anchors作為檢測結果。由於two-stage方法比one-stage方法細化錨點數倍，因此前者具有更準確的結果，而後者具有更高的計算效率。常見檢測基準的最新結果仍然由Anchor-based的檢測器持有。

由於 FPN和 Focal Loss的出現，最近的學術注意力已經轉向Anchor-free檢測器。Anchor-free檢測器以兩種不同的方式可以直接找到沒有預設錨的目標。

一種方法是首先定位幾個預定義或自學習的關鍵點（keypoint），然後繫結目標的空間範圍。我們將這種型別的Anchor-free檢測器稱為keypoint-based的方法。另一種方法是使用目標的中心點或中心區域來定義正樣本，然後預測從正樣本到目標邊界的四個距離。我們稱這種Anchor-free檢測器為center-based的方法。這些Anchor-free檢測器能夠消除那些與錨相關的超引數，並實現了與Anchor-based的檢測器相似的效能，使其在泛化能力方面更具潛力。

在這兩種Anchor-free檢測器中，keypoint-based的方法遵循不同於Anchor-based的檢測器的標準關鍵點估計管道。然而，center-based的檢測器類似於Anchor-based的檢測器，它將點視為預設樣本而不是錨框。

以one-stage anchor-based檢測器RetinaNet和center-based anchor-free檢測器FCOS為例，它們之間主要有3個區別：

(1) 每個位置平鋪的錨點。RetinaNet 在每個位置平鋪多個錨框，而 FCOS 在每個位置平鋪一個錨點。

(2) 正負樣本的定義。RetinaNet 重新排序IoU用於選擇正負樣本，而 FCOS 利用空間和尺度約束來選擇樣本。

(3) 迴歸起始狀態。RetinaNet 從預設的錨框迴歸目標邊界框，而 FCOS 從錨點定位目標。

正如 FCOS論文中所報告的，Anchor-free FCOS 的效能比Anchor-based的 RetinaNet 好得多，值得研究這三個差異中的哪一個是效能差距的重要因素。

創新思路

這篇論文透過嚴格排除它們之間的所有實現不一致，以公平的方式調查anchor-based和anchor-free方法之間的差異。從實驗結果可以得出結論，這兩種方法的本質區別在於正負訓練樣本的定義，導致它們之間的效能差距。如果它們在訓練時選擇相同的正負樣本，無論是從一個框還是一個點回歸，最終的表現都沒有明顯的差距。因此，如何選擇正負訓練樣本值得進一步研究。

受此啟發，論文提出了一種新的自適應訓練樣本選擇（Adaptive Training Sample Selection， ATSS），以根據目標特徵自動選擇正樣本和負樣本。它彌補了anchor-based和anchor-free檢測器之間的差距。

此外，透過一系列在MS COCO資料集上的實驗，可以得出結論，不需要在影象上每個位置平鋪多個anchors來檢測物體。SOTA的 AP 50。7% 是透過應用新引入的 ATSS 而不引入任何開銷來實現的。

Contribution

這項工作的主要貢獻可以概括為：

表明anchor-based和anchor-free檢測器之間的本質區別實際上是如何定義正負訓練樣本。

提出自適應訓練樣本選擇，根據目標的統計特徵自動選擇正負訓練樣本。

證明在影象上的每個位置平鋪多個錨點以檢測對目標是無用的操作。

在不引入任何額外開銷的情況下，在 MS COCO 上實現SOTA效能。

Anchor-based和Anchor-free的區別分析

去除不一致性

論文使用one-stage anchor-based檢測器RetinaNet和center-based anchor-free檢測器FCOS作為實驗物件，透過消除它們之間使用方法的不一致性，即把FCOS上的一些操作加到RetinaNet上，如GIoU loss、GroupNorm等，得到了兩個基本一致的檢測器——RetinaNet（#A=1）和FCOS。

在去掉這些細節最佳化的影響後，兩者只剩下了在分類和迴歸兩個任務上的差別——定義正負樣本的方法差別和迴歸的是anchor box或anchor point的差別。

分類的差別

原始的正負樣本選擇做法：

如圖1（a），RetinaNet使用IOU將來自不同level的anchor box劃分為正負樣本，對於每個目標，在IOU>θp的所有anchor box中，選一個最大的作為正樣本，所有IOU<θn的都認為是負樣本，其他的都忽略掉。

如圖1（b），FCOS使用空間和尺度約束將anchor點分配到不同的level上，首先將所有在ground truth box內的anchor點作為候選點，然後基於預先對每個level設定的尺度範圍來選擇最終的正樣本，沒有選中的點就是負樣本。

實驗的正負樣本選擇做法：交換各自的方案。

如下表2所示，如果在RetinaNet（#A=1）使用空間和尺度約束的方式來代替IOU來選擇正負樣本，RetinaNet（#A=1）的performance可以提升到37。8%。而對於FCOS，如果使用IOU的策略在選擇正負樣本，那麼performance會降到36。9%。這表明了正負樣本的選擇策略才是這兩種方法的根本區別。

迴歸的差別

在正負樣本確定之後，需要對正樣本進行目標位置的迴歸。如圖2所示，RetinaNet迴歸的是anchor box和ground truth的4個offset，而FCOS迴歸的是anchor點到4條邊的距離。這表明RetinaNet的迴歸起點是一個框，而FCOS的迴歸起點是一個點。

根據上面表2結果所示，當RetinaNet和FCOS使用相同的正負樣本選擇策略的時候，兩者並沒有明顯的差別，這表明迴歸的起點並不是兩個方法的本質區別。

因此，one-stage anchor based目標檢測方法和center-based anchor free的目標檢測方法的本質區別在於正負樣本的選取策略上。

Adaptive Training Sample Selection

背景

在訓練目標檢測器時，我們首先需要定義正負樣本進行分類，然後使用正樣本進行迴歸。根據前面的分析，定義正負樣本是至關重要的，anchor free detection FCOS 改進了這一步。它引入了一種定義正樣本和負樣本的新方法，比傳統的基於 IoU 的策略實現了更好的效能。

以前的樣本選擇策略有一些敏感的超引數，例如anchor-based檢測器中的 IoU 閾值和anchor-free檢測器中的尺度範圍。設定這些超引數後，所有的ground-truth box都必須根據固定的規則選擇它們的正樣本，這適用於大多數目標，但會忽略一些外部目標。因此，這些超引數的不同設定會產生非常不同的結果。

實現程式碼：

https：//

github。com/sfzhang15/AT

關於ATSS演算法的幾點說明：

根據錨框和目標之間的中心距離選擇候選目標。對於 RetinaNet，錨框的中心越靠近目標的中心，IoU 越大。對於 FCOS，離目標中心越近的錨點將產生更高質量的檢測。因此，離目標中心越近的錨點是更好的候選者。

使用均值和標準差之和作為 IoU 閾值。

維護不同目標之間的公平性。RetinaNet 和 FCOS 的策略往往對更大的目標有更多的正樣本，導致不同目標之間的不公平。而ATSS統計結果表明，每個目標大約有 0.2 ∗ kL 個正樣本，這與其尺度、縱橫比和位置是沒有關係的。

幾乎沒什麼超引數。

Conclusion

使用新引入的 ATSS，SOTA檢測器大幅提高到 50。7% 的 AP，而不會引入任何開銷。

歡迎關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

其它文章

經典論文系列 | 目標檢測——CornerNet & 又名 anchor boxes的缺陷

ICCV2021 | 重新思考視覺transformers的空間維度

CVPR2021 | Transformer用於End-to-End影片例項分割

ICCV2021 | MicroNet：以極低的 FLOPs 改進影象識別

CVPR2021 | 重新思考BatchNorm中的Batch

CVPR2021|特徵金字塔的新方式YOLOF

CVPR2021提出的一些新資料集彙總

經典論文系列——膠囊網路：新的深度學習網路

使用 PyTorch Lightning 將深度學習管道速度提高 10 倍

如何選擇合適的初始化方法 | 神經網路的初始化方法總結

語義分割綜述

計算機視覺中論文創新的常見思路總結

歸一化方法總結 | 又名“BN和它的後浪們“

欠擬合與過擬合技術總結

計算機視覺中的資料增強方法總結

計算機視覺中的特徵金字塔技術總結

計算機視覺中的注意力機制技術總結

歸一化方法總結

資源分享 | SAHI：超大圖片中對小目標檢測的切片輔助超推理庫

Batch Size對神經網路訓練的影響

資源分享 | 使用 FiftyOne 加快您的論文寫作速度

小蜜蜂問答

小蜜蜂問答

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法：自適應訓練樣本選擇

推薦文章

小蜜蜂問答

小蜜蜂問答

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法：自適應訓練樣本選擇

相關文章

樣本差是什麼？

知道對方手機號，微訊號怎麼在對方不知道的情況下定位他的位置？

在ARcore中實時呈現多個物件的表現

治癒系的軟萌畫風，讓少女心爆棚的App！

推薦文章