本文主要介紹一下我們最近的一篇工作:

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

沿著多目標跟蹤(MOT)中tracking-by-detection的正規化,我們提出了一種簡單高效的資料關聯方法BYTE。 利用檢測框和跟蹤軌跡之間的相似性,在保留高分檢測結果的同時,從低分檢測結果中去除背景,挖掘出真正的物體(遮擋、模糊等困難樣本),從而降低漏檢並提高軌跡的連貫性。BYTE能輕鬆應用到9種state-of-the-art的MOT方法中,並取得1-10個點不等的IDF1指標的提升。基於BYTE我們提出了一個跟蹤方法ByteTrack,首次以30 FPS的執行速度在MOT17上取得80。3 MOTA,77。3 IDF1和63。1 HOTA,目前位居MOTChallenge榜單第一。我們還在開原始碼中加入了將BYTE應用到不同MOT方法中的教程以及ByteTrack的部署程式碼。

Paper:

http://

arxiv。org/abs/2110。0686

4

Code:

https://

github。com/ifzhang/Byte

Track

Leaderboard: ​

https://

motchallenge。net/result

s/MOT17/?det=Private

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

縱軸是MOTA,橫軸是FPS,圓的半徑代表IDF1的相對大小

1。 Motivation

Tracking-by-detection是MOT中的一個經典高效的流派,透過相似度(位置、外觀、運動等資訊)來關聯檢測框得到跟蹤軌跡。由於影片中場景的複雜性,檢測器無法得到完美的檢測結果。為了處理true positive/false positive的trade-off,目前大部分MOT方法會選擇一個閾值,只保留高於這個閾值的檢測結果來做關聯得到跟蹤結果,低於這個閾值的檢測結果直接丟棄。但是這樣做合理嗎?答案是否定的。黑格爾說過:“存在即合理。”低分檢測框往往預示著物體的存在(例如遮擋嚴重的物體)。簡單地把這些物體丟棄會給MOT帶來不可逆轉的錯誤,包括大量的漏檢和軌跡中斷,降低整體跟蹤效能。

2。 BYTE

為了解決之前方法丟棄低分檢測框的不合理性,我們提出了一種簡單、高效、通用的資料關聯方法BYTE (each detection box is a basic unit of the tracklet, as byte in computer program)。直接地將低分框和高分框放在一起與軌跡關聯顯然是不可取的,會帶來很多的背景(false positive)。BYTE將高分框和低分框分開處理,利用低分檢測框和跟蹤軌跡之間的相似性,從低分框中挖掘出真正的物體,過濾掉背景。整個流程如下圖所示:

(1)BYTE會將每個檢測框根據得分分成兩類,高分框和低分框,總共進行兩次匹配。

(2)第一次使用高分框和之前的跟蹤軌跡進行匹配。

(3)第二次使用低分框和第一次沒有匹配上高分框的跟蹤軌跡(例如在當前幀受到嚴重遮擋導致得分下降的物體)進行匹配。

(4)對於沒有匹配上跟蹤軌跡,得分又足夠高的檢測框,我們對其新建一個跟蹤軌跡。對於沒有匹配上檢測框的跟蹤軌跡,我們會保留30幀,在其再次出現時再進行匹配。

我們認為,BYTE能work的原因是遮擋往往伴隨著檢測得分由高到低的緩慢降低:被遮擋物體在被遮擋之前是可視物體,檢測分數較高,建立軌跡;當物體被遮擋時,透過檢測框與軌跡的位置重合度就能把遮擋的物體從低分框中挖掘出來,保持軌跡的連貫性。

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

3。 ByteTrack

ByteTrack使用當前效能非常優秀的檢測器YOLOX得到檢測結果。在資料關聯的過程中,和SORT一樣,只使用卡爾曼濾波來預測當前幀的跟蹤軌跡在下一幀的位置,預測的框和實際的檢測框之間的IoU作為兩次匹配時的相似度,透過匈牙利演算法完成匹配。這裡值得注意的是我們沒有使用ReID特徵來計算外觀相似度:

(1)第一點是為了儘可能做到簡單高速,第二點是我們發現在檢測結果足夠好的情況下,卡爾曼濾波的預測準確性非常高,能夠代替ReID進行物體間的長時刻關聯。實驗中也發現加入ReID對跟蹤結果沒有提升。

(2)如果需要引入ReID特徵來計算外觀相似度,可以參考我們開原始碼中將BYTE應用到JDE,FairMOT等joint-detection-and-embedding方法中的教程。

(3)ByteTrack只使用運動模型沒有使用外觀相似度能在MOT17,20取得高效能的本質原因是MOT資料集的運動模式比較單一(於是,我們提出了一個新資料DanceTrack,彩蛋!)

4。 Demo

ByteTrack在MOT 17 and MOT20 challenge的效果:

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack在故宮遊玩時拍攝影片的效果(侵權刪):

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

5。 Performance

首先,我們使用YOLOX的檢測結果,發現BYTE能夠大幅領先SORT,DeepSORT,MOTDT等經典熱門關聯方法,對超引數也更加魯棒,結果如下所示:

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

其次,我們將BYTE應用到了ECCV20之後的9種SOTA tracker上,其中包括基於ReID, motion和attention的方法,都得到了穩定的MOTA和IDF1指標的提升,結果如下表所示:

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

最後,ByteTrack在MOT17和MOT20上都達到了榜單第一,並且速度在當前所有方法中也達到第一(30 FPS)。

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

6。 Conclusion

多目標追蹤場景中,大部分遮擋物體的檢測結果都是低分框,ByteTrack非常簡潔的從低分檢測框中尋找遮擋的物體,對遮擋非常魯棒。ByteTrack同時也為如何最大程度利用檢測結果來幫助MOT提供了啟發。我們也提供了ByteTrack的部署程式碼和模型,希望它的高精度、高速度能夠對實際應用帶來幫助。

7。 彩蛋

ByteTrack在MOT17,20的表現啟發我們重新思考多目標追蹤中的運動模型與re-ID模型。當前眾多跟蹤模型強依賴於提取物體的外觀特徵,那如果追蹤物體的外觀基本一致時,現有模型的的表現如何?當前主流多目標跟蹤資料集中物體的運動模式非常簡單,近乎勻速直線運動,如果物體的運動模式非常複雜,多個物體互相來回穿梭,現有模型的的表現如何?我們提出了一個數據集:

DanceTrack: tracking multiple objects in uniform appearance and diverse motion

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

正在準備中,歡迎大家屆時關注。