Detection Transformer（DETR）訓練更快收斂的絕佳方案！即插即用的SMCA模組

碼字不易，點個贊再走吧

@AI演算法與影象處理

注：文末附高質量學習交流群

Vision Transformer 相關的工作依然火爆，不完全統計已有20來篇來，今天介紹一篇來自商湯科技的最新工作：

github連結和論文：

https：//

github。com/gaopengcuhk/

SMCA-DETR

https：//

arxiv。org/pdf/2108。0240

4。pdf

更多 ICCV 2021 的論文和程式碼，以及相關的報告和解讀都進行整理（歡迎star）

GitHub - DWCTOD/ICCV2021-Papers-with-Code-Demo： ICCV 2021 paper with code

論文：Fast Convergence of DETR with Spatially Modulated Co-Attention

最近提出的Detection Transformer（DETR）模型成功地將 transformer 應用於目標檢測，並實現了與兩階段物件檢測框架（如 Faster-RCNN）相當的效能。然而，

DETR收斂緩慢

。從頭開始的訓練資料［4］需要500個epoch才能達到高精度。為了加快其收斂速度，我們提出了一種簡單而有效的改進DETR框架的方案，即 Spatially Modulated Co-Attention（SMCA）機制。

SMCA的核心思想是在DETR中透過將co-attention 反饋限制在初始估計的邊界框位置附近，從而進行位置感知

。我們提出的SMCA在保持DETR中其他操作不變的情況下，通

過替換解碼器中原有的co-attention機制，提高了DETR的收斂速度

。此外，透過將multi-head和scale-selection attention設計整合到SMCA中，我們的完整分級SMCA可以實現比基於擴展卷積主幹的DETR更好的效能（108個epoch時45。6 mAP，500個epoch時43。3 mAP）。

速度對比：

動機和核心思想

最近提出的DETR 透過移除手工設計的anchor和非最大值抑制（NMS），大大簡化了目標檢測pipeline。然而，與two-stage或one-stage檢測器相比，DETR的收斂速度較慢（500vs 40 epoch）。DETR的緩慢收斂使得研究人員難以進一步擴充套件該演算法，從而阻礙了其廣泛應用。

在DETR中，有一系列物件查詢向量負責檢測不同空間位置的物件。每個物件查詢與卷積神經網路（CNN）編碼的空間視覺特徵互動，透過 co-attention 機制自適應地從空間位置收集資訊，然後估計邊界框位置和物件類別。然而，在DETR的解碼器中，每個物件查詢的共同關注視覺區域可能與查詢要預測的邊界框無關。因此，DETR的解碼器需要較長的訓練週期來搜尋適當的共同參與區域，以準確地識別相應的物件。

基於這一觀察結果，我們提出了一個新的模組，名為 Spatially Modulated Co-attention（SMCA），它是一個即插即用模組，用於取代DETR中現有的co-attention機制，並透過簡單的修改實現更快的收斂和更高的效能。提出的SMCA動態預測每個物件查詢對應的框的初始中心和比例，生成二維空間高斯權重圖。權重對映與物件查詢和影象特徵的co-attention特徵對映地對應相乘，以更有效地從視覺特徵對映中聚合查詢相關資訊。透過這種方式，空間權重圖有效地調節每個物件查詢的共同關注的搜尋範圍，使其適當地圍繞最初估計的物件中心和比例。利用高斯分佈的訓練可以顯著提高SMCR的空間預測速度。

主要貢獻：

1）提出 Spatially Modulated Co-attention（SMCA），可以加速DETR 的收斂。

沒有多尺度特徵和多頭注意力的SMCA基礎版本已經可以在50個epoch實現41。0 mAP，在108個epoch實現42。7 mAP。在 V100 GPU 上訓練SMCA的基礎版本50個epoch需要265 小時。

2）我們的完整SMCA進一步集成了多尺度特徵和多頭空間調製，可以進一步顯著改進和超越DETR，只需更少的訓練迭代。SMCA在50個epoch可實現43。7 mAP，在108個epoch可實現45。6 mAP，而DETR-DC5在500個epoch可實現43。3 mAP。在V100 GPU上需要600 小時來訓練50個epoch的完整SMCA。

3）我們對COCO 2017資料集進行了廣泛的消融研究，以驗證的SMCA模組和網路設計的有效性。

實驗結果：

努力分享優質的計算機視覺相關內容，歡迎關注

學習交流群

建了學習交流群！想要進學習交流群的同學，可以直接加微訊號：

nvshenj125

。加的時候備註一下：

地區+學校/公司+研究方向+暱稱

，即可。然後就可以拉你進群了。

小蜜蜂問答

小蜜蜂問答

Detection Transformer（DETR）訓練更快收斂的絕佳方案！即插即用的SMCA模組 | ICCV 2021

推薦文章

小蜜蜂問答

小蜜蜂問答

Detection Transformer（DETR）訓練更快收斂的絕佳方案！即插即用的SMCA模組 | ICCV 2021

相關文章

Pytorch的那些坑

self-attention竟然沒用？

醫學名詞翻譯 急！！！

hive底層依賴hadoop中的哪些框架

推薦文章

醫學名詞翻譯急！！！