[ICCV 2021] 鬆弛Transformer：實現直接出框的時序動作檢測

本文介紹我們組在2021年初公開在arxiv上的時序動作候選框生成工作RTD （Relaxed Transformer Decoders for Direct Action Proposal Generation）。

論文連結：

https：//

arxiv。org/abs/2102。0189

程式碼地址：

https：//

github。com/MCG-NJU/RTD-

Action

一、任務背景

伴隨在不同社交平臺上影片數量的大幅度增加，影片理解任務成為計算機視覺領域的比較重要的問題之一。現實環境中的影片往往動作區域和背景區域交雜，同一個影片包含多個動作例項。

時序動作候選框生成任務(Temporal Action Proposal Generation)

基於未經剪輯的長影片，定位其中人類動作的邊界。目前兩種主流方法包括anchor-based方法和boundary-based方法。anchor-based方法基於預先定義的密集多尺度動作錨框預測動作，其缺點在於，由於影片中動作的時長變化範圍較大，anchor-based方法難以在合理的複雜度下覆蓋全部動作例項。boundary-based方法首先對於影片的每個時序位置預測boundary confidence，而後採用bottom-up的grouping策略匹配預測的開始位置和結束位置。boundary based方法利用local特徵預測boundary資訊，因此對local噪聲敏感並且容易產生不完整的預測框。這兩種主流方法都依賴於繁瑣而冗餘的anchor生成模組或者邊界點匹配模組，需要先驗知識和大量的手工調參。

二、研究動機

我們認為在時序候選框生成任務中，對於長時序依賴的建模是非常重要的。我們在這篇工作中將影片看作是一維的時間序列，利用Transformer結構對於影片中的全域性依賴建模以增強我們的定位精度。我們結合Transformer結構，提出了一個

直接

得出時序候選框的候選框生成模型RTD-Net。相比過往工作對範圍有限的時序鄰域依賴的建模，Transformer中平行解碼的結構可以使我們從

全域性

的角度對於候選框query之間的依賴建模，從而得到更加完整和精確的邊界預測結果。此外，我們的時序候選框生成模型因為結合了簡潔的集合預測正規化，不再需要之前工作中冗餘繁瑣的手工設計模組，比如密集的anchor生成或者邊界點匹配；同時預測結果也不需要耗時的NMS後處理，大大

提升了inference的速度

。

在將Transformer-based detection方法從影象檢測領域遷移到影片分析領域的過程中，我們做出了以下三個重要的改進：

我們觀察到影片特徵存在slowness問題，即影片的特徵沿時序維度的變化速度較慢，導致直接在時序特徵上運用self-attention模組會帶來over-smoothing的問題，降低動作邊界在時序特徵中的區分度。我們提出了一個自定義的boundary-attentive模組，代替Transformer encoder來減輕over-smoothing問題，提高了時序維度中邊界的區分度。

時序動作候選框生成任務中的動作定義較為抽象，導致其邊界不如物體邊界的定義明確，因此受到標定人員標準不一致的影響，動作標註中的邊界定義也存在噪聲。過於嚴格的集合元素配對策略可能會影響Transformer結構的收斂，也會影響模型訓練和其泛化性，因此我們提出了一個鬆弛匹配策略來放鬆預測-真值之間較為嚴格的一一對應匹配策略。

我們提出了一個三分支檢測頭結構，增加了completeness head對於生成的時序候選框完整度進行預測，提高候選框打分的魯棒性。

三、方法介紹

我們提出RTD-Net，將時序候選框生成的過程看成一個集合預測問題，從輸入特徵直接回歸出時序候選框。我們的模型主要包括了3個模組：邊界注意力模組、鬆弛Transformer解碼器和三分支的檢測頭結構。我們首先利用backbone網路對原始影片提取特徵，然後邊界注意力模組利用邊界分數來增強上述特徵中邊界對應特徵的區分度，生成更加緊湊的邊界注意特徵送入鬆弛Transformer解碼器。實驗表明，邊界注意特徵對於後續的候選框解碼流程非常重要。而後，Transformer解碼器利用一系列候選框query結合邊界注意特徵，在平行解碼過程中建模候選框之間成對的約束，並從全域性角度捕捉候選框之間的依賴資訊。最後，一個三分支結構的檢測頭將解碼器輸出轉化為最終的預測結果。邊界預測分支直接生成時序候選框的邊界，動作-背景二分類分支和完整度分支對於每個時序候選框給出可靠的打分。在訓練過程中，我們在集合元素配對時採用了一種鬆弛配對法則，緩和了時序邊界定義模糊帶來的影響，將更多預測較好的候選框也分配成為正樣本。

邊界注意模組（Boundary-attentive module）

該模組主要目的在於增加特徵表示中動作邊界的區分度，為後續解碼提供更好的特徵表示。Slowness是影片特徵的普遍先驗，在backbone網路有重疊地提取特徵後其slowness會更加明顯，導致在一個區域性區域中相鄰時序位置對應的特徵相似度很高。因此，模組的核心思想在於，在特徵中突出動作的邊界位置，方便後續候選框生成模組迴歸得到精確的邊界位置。具體來說，我們對於輸入特徵的每個時序位置，透過一個時序評估網路預測其為一個動作開始或者結束位置的機率。而後，我們將輸入特徵和每個時序位置對應的動作開始和結束預測分數相乘，得到邊界注意特徵。在消融實驗中，我們發現由於邊界注意特徵對於時序邊界資訊進行了顯式編碼，後續的Transformer解碼器可以生成更加準確的動作候選框。

鬆弛Transformer解碼器（Relaxed Transformer Decoder）

該模組利用Transformer Decoder結構直接出框，在平行解碼的過程中全域性地對query之間的依賴建模，得到更加精確的動作候選框。解碼器基於邊界注意特徵和一系列候選框query，透過堆疊的多頭自注意力和編碼器-解碼器注意力層，直接生成對應每個候選框query的特徵表示。自注意力層對於候選框之間的時序依賴建模，並不斷調整query的表示。在編碼器-解碼器層中，候選框query處理每個時序位置，並從輸入特徵中提取出動作資訊結合到query的特徵表示中。在訓練過程中，解碼器結合了匈牙利匹配演算法，將和動作真值匹配上的候選框記為正樣本，並利用集合預測的損失函式訓練。

時序動作候選框任務中，時序動作有著

邊界定義模糊、標註稀疏

的特點，即時序動作的邊界定義不像圖片中的物體邊界那麼清晰，且每個訓練樣本的平均真值較少。因此，一個動作真值只匹配一個動作候選框的嚴格匹配方法不一定能得到最優的預測結果。我們在結果中發現，預測同一個動作真值的多個候選框往往定位精度類似，很難區分優劣，嚴格的匹配方法可能會使模型難以收斂到一個比較穩定的結果。

我們提出了一個鬆弛匹配策略，一個動作真值可以匹配多個檢測結果。我們利用候選框和動作真值之間的最大tIoU值來區分正負樣本，和真值的tIoU大於閾值的候選框被定義為正樣本。在實驗中，我們發現鬆弛策略可以降低模型訓練的難度，並且有效地提高最終的定位指標。

三分支檢測頭結構（Three-branch Detection Head）

我們設計了三分支的檢測頭結構，基於解碼器輸出的query特徵表示直接輸出候選框的邊界和打分。其中，邊界分支對候選框的時序邊界解碼，得到開始幀和結束幀的位置

，動作-背景二分類分支對候選框是否為前景預測了置信度分數

$p_{bc}$

。此外，我們提出了一個完整度分支，用來預測候選框相對於其對應動作真值的完整程度。

一個高質量的候選框不僅需要有高的前景置信度分數，也需要有準確的邊界。動作-背景二分類分支有時會將一些特徵表示中包括了關鍵動作特徵，但卻沒有準確定位的候選框打出高分，因此不能作為可靠的候選框打分手段。我們引入完整度分支，對於每個候選框預測其和動作真值的重疊程度，即完整度分數

。完整度分數可以顯式地將時序定位質量引入候選框的打分依據內，結合二分類分數形成可靠的候選框置信度估計，使檢測結果更加穩定和可靠。

四、模型訓練

1。訓練標籤分配

針對時序動作邊界定義模糊、標註稀疏的特點，我們採用了鬆弛的訓練標籤分配策略。鬆弛的訓練標籤分配策略旨在最佳化

稀疏出框正規化（預測的候選框數量遠小於傳統的密集出框正規化）

下的訓練標籤分配過程，在顯著減少inference時間的情況下，提升模型對於正樣本的召回率。除了嚴格匹配方法中得到的正樣本外，和真值的tIoU大於閾值的候選框也會被定義為正樣本。在實驗中，我們發現鬆弛的訓練標籤分配策略對於鬆弛規則（基於什麼規則來鬆弛正樣本，如閾值、topK）較為魯棒，不同的鬆弛規則下，模型均可以收斂到相對穩定的結果。

2。損失函式

損失函式主要由三個部分組成，分別對應於檢測頭中的三個分支（二分類、邊界及完整度分支）。

$L_{cls} = -\gamma~\cdot~\frac{1}{N}\sum_{n=1}^{N} (\hat{p}_n\log p_{bc,n} + (1-\hat{p}_n)\log(1-p_{bc,n}))$

$L_{boundary} = \frac{1}{N_{pos}}\sum_{n:\sigma$

$L_{complete} = \frac{1}{N}\sum_{n=1}^{N}(p_{c, n} - \hat{g}_{tIoU, n})^2$

五、實驗結果

1。時序動作候選框生成任務

在不採用任何後處理方法（如：NMS）的情況下，RTD-Net仍能夠在THUMOS14資料集上取得最佳的效能，且對於較小AN下的AR提升較為顯著。

2。時序動作檢測任務

RTD-Net生成的時序動作候選框能夠提升時序動作檢測任務的表現。在分別和video-level的分類器UntrimmedNet，以及proposal-level的分類器P-GCN組合的情況下，RTD-Net的效能都在THUMOS14資料集上超過了之前的SOTA方法。

六、討論

時序動作候選框生成任務中，直接出框正規化的意義？

現有的anchor-based以及boundary-based方法，基本都採用了密集出框（dense predictions）的方式，因而生成的候選框中有較大的冗餘，需要透過NMS進行後處理操作。而RTD-Net基於鬆弛Transformer解碼器（平行解碼方式、鬆弛的訓練標籤分配策略）實現了稀疏出框（sparse predictions），不透過預測結果的冗餘來保證召回率，也就無需進行NMS，即實現了直接出框。直接出框正規化下，RTD-Net能夠做到“

出更少的框，具有更快的inference速度，取得優越的效能

”，更適合應用在實際場景之中。

2。 RTD-Net是怎麼利用long-range的時序上下文資訊的？

Transformer decoder中平行解碼的注意力結構，可以使RTD-Net從全域性的角度對於候選框query之間的依賴建模，從而得到更加完整和精確的邊界預測結果。具體來說，自注意力層對query之間的時序依賴進行建模，計算出不同候選框之間的特徵關係（proposal-proposal relation），並調整候選框的特徵表示；編碼器-解碼器注意力層中，query處理每一個時刻的特徵，並將響應較高（具有動作資訊）位置的特徵聚合起來。而作為對比，boundary-based方法只利用了邊界附近的本地上下文資訊。

3。 RTD-Net生成的時序動作候選框結果，好在哪裡？

更完整

：下圖第一行中，RTD-Net預測了一個完整的候選框，而boundary-based的方法預測了兩個不完整的候選框。Boundary-based的方法感受野較小，只利用了邊界附近的本地上下文特徵，而無法感知一定範圍外的相似特徵。因而，該類方法對於本地噪聲不夠魯棒，容易預測不完整的候選框。作為對比，RTD-Net利用了long-range的時序上下文資訊，從而產生更加完整的時序動作候選框結果。

更精確

：第二行中，當一段影片中出現多個動作真值時，RTD-Net預測的候選框更為精準。得益於long-range的時序上下文資訊，RTD-Net能夠更好地感知到候選框之間的特徵關係（自注意力層中，特徵相似的query能夠相互增強特徵的顯著性）和前景背景間的特徵差異（編碼器-解碼器注意力層中，前景特徵具有較高的響應，而背景特徵的響應較低），從而產生更加精確的時序動作候選框結果。

七、結語

本文提出了一種直接出框的正規化，以用於時序動作候選框生成任務。考慮到影象和影片的本質差異，我們的RTD-Net對於原始的DETR框架，做出了三個重要的改進：邊界注意模組、鬆弛Transformer解碼器以及三分支檢測頭結構。由於進行了顯式的

時序上下文資訊建模

，RTD-Net在時序動作候選框生成任務及時序動作檢測任務上都取得了優越的效能。此外，直接出框的RTD-Net無需進行NMS後處理操作，在

inference速度

上具有顯著的提升，因而比先前的方法更加高效。更多方法中的細節、方法間的比較與分析，Ablation study 和實驗視覺化請參考我們的論文：）

感謝大家的觀看！

小蜜蜂問答

小蜜蜂問答

[ICCV 2021] 鬆弛Transformer：實現直接出框的時序動作檢測

推薦文章

小蜜蜂問答

小蜜蜂問答

[ICCV 2021] 鬆弛Transformer：實現直接出框的時序動作檢測

相關文章

2021年6月12號是多少周？

b級玉石的特徵？

異世界真的存在嗎？異世界平行空間到底是科學還是玄學？

記憶體是頻率高好還是時序低好啊？

推薦文章