碼字不易,點個贊再走吧

@AI演算法與影象處理

注:文末附高質量學習交流群

Vision Transformer 相關的工作依然火爆,不完全統計已有20來篇來,今天介紹一篇來自商湯科技的最新工作:

github連結和論文:

https://

github。com/gaopengcuhk/

SMCA-DETR

https://

arxiv。org/pdf/2108。0240

4。pdf

更多 ICCV 2021 的論文和程式碼,以及相關的報告和解讀都進行整理(歡迎star)

GitHub - DWCTOD/ICCV2021-Papers-with-Code-Demo: ICCV 2021 paper with code

論文:Fast Convergence of DETR with Spatially Modulated Co-Attention

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

最近提出的Detection Transformer(DETR)模型成功地將 transformer 應用於目標檢測,並實現了與兩階段物件檢測框架(如 Faster-RCNN)相當的效能。然而,

DETR收斂緩慢

。從頭開始的訓練資料[4]需要500個epoch才能達到高精度。為了加快其收斂速度,我們提出了一種簡單而有效的改進DETR框架的方案,即 Spatially Modulated Co-Attention(SMCA)機制。

SMCA的核心思想是在DETR中透過將co-attention 反饋限制在初始估計的邊界框位置附近,從而進行位置感知

。我們提出的SMCA在保持DETR中其他操作不變的情況下,通

過替換解碼器中原有的co-attention機制,提高了DETR的收斂速度

。此外,透過將multi-head和scale-selection attention設計整合到SMCA中,我們的完整分級SMCA可以實現比基於擴展卷積主幹的DETR更好的效能(108個epoch時45。6 mAP,500個epoch時43。3 mAP)。

速度對比:

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

動機和核心思想

最近提出的DETR 透過移除手工設計的anchor和非最大值抑制(NMS),大大簡化了目標檢測pipeline。然而,與two-stage或one-stage檢測器相比,DETR的收斂速度較慢(500vs 40 epoch)。DETR的緩慢收斂使得研究人員難以進一步擴充套件該演算法,從而阻礙了其廣泛應用。

在DETR中,有一系列物件查詢向量負責檢測不同空間位置的物件。每個物件查詢與卷積神經網路(CNN)編碼的空間視覺特徵互動,透過 co-attention 機制自適應地從空間位置收集資訊,然後估計邊界框位置和物件類別。然而,在DETR的解碼器中,每個物件查詢的共同關注視覺區域可能與查詢要預測的邊界框無關。因此,DETR的解碼器需要較長的訓練週期來搜尋適當的共同參與區域,以準確地識別相應的物件。

基於這一觀察結果,我們提出了一個新的模組,名為 Spatially Modulated Co-attention(SMCA),它是一個即插即用模組,用於取代DETR中現有的co-attention機制,並透過簡單的修改實現更快的收斂和更高的效能。提出的SMCA動態預測每個物件查詢對應的框的初始中心和比例,生成二維空間高斯權重圖。權重對映與物件查詢和影象特徵的co-attention特徵對映地對應相乘,以更有效地從視覺特徵對映中聚合查詢相關資訊。透過這種方式,空間權重圖有效地調節每個物件查詢的共同關注的搜尋範圍,使其適當地圍繞最初估計的物件中心和比例。利用高斯分佈的訓練可以顯著提高SMCR的空間預測速度。

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

主要貢獻:

1)提出 Spatially Modulated Co-attention(SMCA),可以加速DETR 的收斂。

沒有多尺度特徵和多頭注意力的SMCA基礎版本已經可以在50個epoch實現41。0 mAP,在108個epoch實現42。7 mAP。在 V100 GPU 上訓練SMCA的基礎版本50個epoch需要265 小時。

2)我們的完整SMCA進一步集成了多尺度特徵和多頭空間調製,可以進一步顯著改進和超越DETR,只需更少的訓練迭代。SMCA在50個epoch可實現43。7 mAP,在108個epoch可實現45。6 mAP,而DETR-DC5在500個epoch可實現43。3 mAP。在V100 GPU上需要600 小時來訓練50個epoch的完整SMCA。

3)我們對COCO 2017資料集進行了廣泛的消融研究,以驗證的SMCA模組和網路設計的有效性。

實驗結果:

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

Detection Transformer(DETR)訓練更快收斂的絕佳方案!即插即用的SMCA模組 | ICCV 2021

努力分享優質的計算機視覺相關內容,歡迎關注

學習交流群

建了學習交流群!想要進學習交流群的同學,可以直接加微訊號:

nvshenj125

。加的時候備註一下:

地區+學校/公司+研究方向+暱稱

,即可。然後就可以拉你進群了。