Disentangling Monocular 3D Object Detection

廣告：我們在招 3D Object Detection 方向的實習生，有意向可以私信我簡歷；以下是正文。

------------------- 我是華麗的分割線 ---------------------

URL： Disentangling Monocular 3D Object Detection

在今年 CVPR 2019 WAD Workshop nuScenes Detection Challenge 中，Mapillary 使用本文介紹的 MonoDIS 達到了目前 SOTA 的 image-only 3D Detection Performance（NDS 38。4%）；雖然不及官方基於 lidar 的 pointpillars baseline，但也已經是基於單目非常高的精度了，而且方法很簡單。（本次 challenge 最高的 NDS 是我們的 63。3%）

本文的核心是提出瞭解耦的 regression loss，用來替代之前同時迴歸 center、size、rotation 帶來的由於各個 opponent 的 loss 大小不同導致的訓練問題；基本思想是將回歸的部分分成 k 個 group，每個 group 只有自身的引數需要學習，其他的部分使用 gt 代替，從而實現每個分支只回歸某一個 component，使得訓練更加穩定。同時提出了改進的 sIoU loss，將沒有 overlap 的 bboxes 的 loss 也考慮進來。同時，本文使用 memory efficient in-place synced bn 替換了原來的 BatchNorm，從而更 efficient 的訓練；