Person Search中關於特徵Norm的討論
論文題目:Norm-Aware Embedding for Efficient Person Search
論文連結:
http://
openaccess。thecvf。com/c
ontent_CVPR_2020/papers/Chen_Norm-Aware_Embedding_for_Efficient_Person_Search_CVPR_2020_paper。pdf
程式碼:
https://
github。com/DeanChan/NAE
4PS
這篇是DiChen,shanshan zhang 老師, jianyang 老師,Bernt Schiele 的CVPR2020工作,最近在學習,給了我很多啟發關於Feature Norm。我理解的可能也不夠深入,只是拋磚引玉,感謝各位寶貴的意見。也歡迎大家投稿到 行人重識別專欄(
https://
zhuanlan。zhihu。com/pers
onReid
)。
先說個題外話,之前,sphere face 作者之一 Zhiding Yu 老師就和我說 feature 角度最重要,feature norm 反而反應的資訊並不多。這可以詳見他最近的一個工作《Angular Visual Hardness》(
https://
arxiv。org/pdf/1912。0227
9。pdf
)主要的中心思想是,人的視覺系統和 神經網路學到特徵的model score (confidence score)是不完全一致的。
from https://wyliu。com/papers/ChenAVH_slides。pdf
這邊,我們把最後model confidence,解構成norm和夾角。
文中做了3張熱度圖和人的選擇比較。 發現人的選擇和model confidence 相關度不高,也和magnitude 也就是norm相關度不高,但是和angle 相關度較高(如下圖)。
What:
好。說回正題。而這次norm-aware embedding研究的問題是one stage person search。相對的two stage 就是先檢測行人,然後再做person re-id學習。
本文研究了把norm 和 angle 做了disentangle,同時做person reid和 pedestrian detection:
用norm 去表示 detection結果 (是不是人)
2。 用angle 去區分人 person re-id (也就是行人重識別的任務)
How:
Loss:如下圖
理想中,彩色的為reID的特徵, 而黑色的是檢測到背景的特徵。
reid部分還是用OIM loss,一個cross-entropy的變種,引入negative sample,所以彩色的feature分的比較開。
而detection 的loss,是作用在一個scalar 也就是norm上。這邊需要強調,r是一個數。如果是人就往1 去推,如果是背景,就往0推,也就是收縮到球心。所以黑色的特徵聚集在球心附近。
全部pipeline如下。
在inference的時候,也可以對是 iou 不高的candidate做一些壓制,具體就是拿detection的confidence score乘一下。
另外,作者還做了一些拓展,做成一個attention map類似的網路。主要就是,得到roi的時候不要馬上pooling 。多做幾步,最後再pooling。
這邊把和gt bbox有overlapping的區域設定為1,非overlapping的設定為0。 來學detection的r map。邊緣上是有bilinear做一個smooth。
實驗:
這邊有個單詞拼錯了,不關鍵。結果還是很高的。可以看到detector的結果有提升,而reid部分也比較好。
我的理解也比較淺,歡迎大家討論,,
拋磚引玉,一個問題,cross-entropy loss 學到後面,feature norm 到底表達了什麼?是為了擬合softmax的原因越來越大,所以就完全沒有意義麼?
最後,也歡迎大家可以check我的一些其他文章,感謝~比心。