CVPR2021| 繼SE,CBAM後的一種新的注意力機制Coordinate Attention
前言:
最近幾年,注意力機制用來提升模型效能有比較好的表現,大家都用得很舒服。本文將介紹一種新提出的座標注意力機制,這種機制解決了SE,CBAM上存在的一些問題,產生了更好的效果,而使用與SE,CBAM同樣簡單。
點個關注,每天更新兩篇計算機視覺的文章
論文地址:
https://
arxiv。org/pdf/2103。0290
7。pdf
程式碼地址:
https://
github。com/AndrewQibin/
CoordAttention
Introduction
大部分注意力機制用於深度神經網路可以帶來很好的效能提升,但這些注意力機制用於行動網路(模型比較小)會明顯落後於大網路,這主要是因為大多數注意力機制帶來的計算開銷對於行動網路而言是無法承受的,例如self-attention。
因此,在行動網路上主要使用Squeeze-and-Excitation (SE),BAM和CBAM。但SE只考慮內部通道資訊而忽略了位置資訊的重要性,而視覺中目標的空間結構是很重要的。BAM和CBAM嘗試去透過在通道上進行全域性池化來引入位置資訊,但這種方式只能捕獲區域性的資訊,而無法獲取長範圍依賴的資訊。
這裡稍微解釋一下,經過幾層的卷積後feature maps的每個位置都包含了原影象一個區域性區域的資訊,CBAM是透過對每個位置的多個通道取最大值和平均值來作為加權係數,因此這種加權只考慮了局部範圍的資訊。
在本文中提出了一種新穎且高效的注意力機制,透過嵌入位置資訊到通道注意力,從而使行動網路獲取更大區域的資訊而避免引入大的開銷。為了避免2D全域性池化引入位置資訊損失,本文提出分解通道注意為兩個並行的1D特徵編碼來高效地整合空間座標資訊到生成的attention maps中。
具體而言,利用兩個1D全域性池化操作將沿垂直和水平方向的input features分別聚合為兩個單獨的direction-aware feature maps。 然後將具有嵌入的特定方向資訊的這兩個特徵圖分別編碼為兩個attention map,每個attention map都沿一個空間方向捕獲輸入特徵圖的遠距離依存關係。 位置資訊因此可以被儲存在所生成的attention map中。 然後透過乘法將兩個attention map都應用於input feature maps,以強調注意區域的表示。
考慮到其操作可以區分空間方向(即座標)並生成coordinate-aware attention maps,因此論文將提出的注意力方法稱為“coordinate attention”。
這種coordinate attention有三個優點:
1) 它捕獲了不僅跨通道的資訊,還包含了direction-aware和position-sensitive的資訊,這使得模型更準確地定位到並識別目標區域。
2) 這種方法靈活且輕量,很容易插入到現有的經典行動網路中,例如MobileNet_v2中的倒殘差塊和MobileNeXt中的沙漏塊中去提升特徵表示效能。
3) 對一個預訓練的模型來說,這種coordinate attention可以給使用行動網路處理的down-stream任務帶來明顯效能提升,尤其是那些密集預測的任務,例如語義分割。
Coordinate Attention
在介紹coordinate attention前先回顧一下SE和CBAM。
SE比較簡單,如圖a所示,看一下這個結構圖就懂了。
稍微介紹一下CBAM,如圖b所示,CBAM包含空間注意力和通道注意力兩部分。
通道注意力:對input feature maps每個feature map做全域性平均池化和全域性最大池化,得到兩個1d向量,再經過conv,ReLU,1x1conv,sigmoid進行歸一化後對input feature maps加權。
空間注意力:對feature map的每個位置的所有通道上做最大池化和平均池化,得到兩個feature map,再對這兩個feature map進行7x7 Conv,再使BN和sigmoid歸一化。
具體如下圖所示:
回到Coordinate Attention上,如下圖所示,分別對水平方向和垂直方向進行平均池化得到兩個1D向量,在空間維度上Concat和1x1Conv來壓縮通道,再是透過BN和Non-linear來編碼垂直方向和水平方向的空間資訊,接下來split,再各自透過1x1得到input feature maps一樣的通道數,再歸一化加權。
簡單說來,Coordinate Attention是透過在水平方向和垂直方向上進行最大池化,再進行transform對空間資訊編碼,最後把空間資訊透過在通道上加權的方式融合。
Conclusion
這種方式與SE,CBAM有明顯提升。
對計算機視覺中的注意力機制做了一個總結。
本文來源於公眾號 CV技術指南 的論文分享系列。
歡迎關注公眾號 CV技術指南 ,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
其它文章
我們真的需要模型壓縮嗎
欠擬合與過擬合技術總結
人工智慧會是泡沫嗎?
如何看待計算機視覺未來的走向
使用Dice loss實現清晰的邊界檢測
CNN結構演變總結(一)經典模型
CNN結構演變總結(二)輕量化模型
CNN結構演變總結(三)設計原則
CNN視覺化技術總結(一)——特徵圖視覺化
CNN視覺化技術總結(二)——卷積核可視化
CNN視覺化技術總結(三)——類視覺化
CNN視覺化技術總結(四)——視覺化工具與專案
計算機視覺中的資料增強方法總結
計算機視覺中的特徵金字塔技術總結
Siamese network總結
計算機視覺中的注意力機制技術總結
文字識別OCR開源框架的對比——Tesseract vs EasyOCR
計算機視覺專業術語總結(一)構建計算機視覺的知識體系
北京大學施柏鑫:從審稿人視角,談談怎麼寫一篇CVPR論文
歸一化方法總結
論文創新的常見思路總結
計算機視覺的高效閱讀英文文獻方法總結
計算機視覺中的小樣本學習綜述
知識蒸餾的簡要概述
最佳化OpenCV影片的讀取速度
NMS總結
損失函式技術總結
池化技術總結
CVPR2021 | 開放世界的目標檢測
CVPR2021|PVT——無卷積密集預測的多功能backbone