CVPR 2019 | 奪取6項冠軍的曠視如何築起演算法壁壘

走進今年 CVPR 的工業展區，映入眼簾的是熟悉的 MEGVII 字眼和以藍色為主基調的展位，藍白相間的 booth roof 甚是亮眼，這多少讓記者有些驚訝。曠視，這家來自中國的計算機視覺獨角獸公司，竟然「霸佔」了全世界頂尖學術會議的 C 位。

機器之心原創，作者：Tony。

CVPR，全稱 IEEE 國際計算機視覺與模式識別會議，在計算機視覺領域是和 ECCV、ICCV 並稱的三大頂尖會議。今年的 CVPR 於當地時間 6 月 16 日在美國加州長灘開幕，前後共 5 天，吸引了超過 9200 多名參會者、284 家贊助商和 104 家展商。論文方面，來自全球的 14，104 位作者提交了 5000 多篇論文。

不遠千里來到長灘會議中心的曠視研究員，在今年的 CVPR 上滿載而歸：拿下 6 個挑戰賽世界冠軍，包括自動駕駛、細粒度識別等等，數量位列今年國內參會公司之首；首次在 CVPR 舉辦研討會和挑戰賽，吸引了超過 300 多支隊伍註冊參加；14 篇論文入選了今年的 CVPR，比去年多出 6 篇，其中 1 篇入選口頭報告（Oral Presentation，5。6% 接收率）。

參加 CVPR 對以演算法為核心的曠視有重要的戰略意義。2019 年伊始，在成立八年之際，曠視宣佈了從品牌到戰略的全面升級，並且確立了以演算法為核心基因，圍繞計算視覺及相關感測技術開發感知、控制、最佳化演算法，包括但不限於人臉識別、手勢識別、文字識別、物體檢測、影片分析、三維重建、智慧感測與控制等機器學習技術。

一方面，學術會議的同行評議，是考驗曠視技術的試金石；另一方面，曠視也在藉此機會吸引人才，鼓勵學術界思考中國計算機視覺行業的特殊需求，並回饋研究社群。

曠視首席科學家和研究院院長孫劍告訴機器之心，「在一次和姚期智先生（也是曠視學術委員會主席）的座談上，姚先生說的非常好：『發表論文、參加學術會議，其實是有人對你的工作鼓掌，激勵你繼續前行。』」

6 項冠軍背後的演算法優勢

挑戰賽可以看成是技術預演的過程，處於研究和產品之間的環節。透過挑戰賽，研究員可以打造更好的整合架構、最佳化演算法、測試極端情況，在挑戰賽上驗證過的技術有助於加快產品落地。

今年，曠視橫掃了 6 個挑戰賽專案，涵蓋自動駕駛、細粒度識別、終端影象處理、3D 物體識別等眾多領域，且含金量都很高，分別是：

1。自動駕駛方向

WAD nuScenes 3D Detection Challenge

WAD Domain Adaption Detection Challenge

WAD Domain Adaption Tracking Challenge

2。細粒度影象識別

FGVC iNaturalist

FGVC Herbarium

3。影象恢復和增強

NTIRE Real Image Denoising Challenge

以 iNaturalist 為例，這是細粒度影象識別裡的標杆性比賽，要求參賽團隊在上千種動植物子類別中實現影象識別，被看作是該領域的 ImageNet。iNaturalist 所屬的細粒度影片分類（FGVC）研討會，在 CVPR 上已經舉辦過六屆。

曠視的參賽團隊來自南京研究院，細粒度影象分析是其基礎研究方向之一，他們也涉獵小樣本、深度學習、物體檢測、圖卷積等領域。南京研究院的負責人魏秀參告訴機器之心，今年 iNaturalist 的難度相比往年有所提升，主要體現在三個方面：

首先，資料集不僅涵蓋了一千多個動植物品類，而且有些動植物類別之間的差別普通人根本看不出，比如你知道下圖哪張是「白腹藍彩鵐」，哪張是「靛彩鵐」嗎？這些問題只有植物專家或者動物專家才能回答。

上圖是靛彩鵐，下圖是白腹藍彩鵐

其次，這是一個長尾分佈的資料。所謂的長尾分佈指的是大約 20% 的類別包含 80% 的影象，而 80% 的類別只覆蓋 20% 的資料，所以整個資料集呈現指數遞減趨勢，這對解決實際問題帶來了很大的挑戰性。

再者，除了識別動植物，在具體的一個類別，還需要識別動植物不同的發育期狀態。比如說一些兩棲動物可能會有一些變態反應，不同的狀態需要進行精細的甄別。

魏秀參介紹說，此次參加挑戰賽的模型集成了最前沿細粒度技術成果，包括 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等；同時，團隊也提出「後驗機率重校準」技術，即透過先驗知識對模型輸出的後驗機率進行校準，極大提高擁有較少訓練影象的長尾類別的識別準確率。最終結果，曠視在 iNaturalist 挑戰賽上比第二、三名領先了一個身位。

在另一個細粒度影象識別的比賽 Herbarium Challenge（植物標本挑戰賽）中，參賽團隊需要從植物標本中鑑定開花植物物種（Melastomes），資料來自紐約植物園。曠視擊敗了去年的冠軍、今年的第二名大連理工。

多說一個細節：在細粒度影象識別的挑戰賽上獲勝的模型使用了曠視自研的 Brain++ AutoML 技術。曠視內部採用了 One-shot 神經架構搜尋的方法，兼顧了效能、效率、靈活性，使得 Brain++ AutoML 可以在實際模型生成中實現快速落地和呼叫。

這是曠視南京研究院第一次參加 CVPR 的挑戰賽。從 2017 年組建至今，南京研究院希望將此機會將多年積累的技術放到國際舞臺上比一比。魏秀參後來透露，挑戰賽的勝利提升了團隊的自信心和凝聚力。

相比於在 iNaturalist 挑戰賽上的突破，曠視研究院檢測組負責人俞剛帶隊獲得自動駕駛挑戰賽三項冠軍更像是「常規操作」。在去年 CVPR 上，俞剛帶隊就獲得了自動駕駛識別挑戰賽例項影片分割（Instance-level Video Segmentation）的冠軍。今年，曠視分別在 BDD100K & D²-City 目標檢測遷移學習挑戰賽、D²-City & BDD100K 目標跟蹤遷移學習挑戰賽以及 nuScenes 3D 檢測上獲得冠軍。

俞剛（中）在 CVPR 現場領獎。

nuScenes 3D 檢測是此次自動駕駛挑戰賽的一個亮點。nuScenes 是今年自動駕駛公司 Aptiv 釋出的一個全新資料集，除了包括每段 20 秒的 1000 個場景以及 140 萬幅影象外，該資料集使用了新的 3D 方法來整合物體檢測，並且釋出了 39 萬個鐳射雷達掃描輸出。儘管曠視目前並未明確涉獵自動駕駛業務，但俞剛表示，曠視希望透過 3D 和 2D 的結合，提前佈局以應對未來精度敏感的產品落地。

在這項挑戰賽中，曠視設計了一個多尺度、多工的模型，藉助新型檢測網路，結合均衡取樣等策略，極大提高了模型的檢測精度，尤其是在小物體上。最終，曠視模型比官方基準（45。3%）高出 18 個點，達到 63。3%，比第二名也高出 8。8 個點，擊敗了包括香港中文大學在內的頂尖團隊。

另外兩個 D²-City & BDD100K 的場景遷移挑戰賽，看重的是演算法的檢測和泛化能力。D²-City 是滴滴釋出的大型資料集，而 BDD100K 則是去年加州伯克利大學釋出的開源資料集。前者是國內資料，後者是美國路況，場景差異巨大，這就考驗了演算法在不同場景的遷移能力。

首次主辦挑戰賽，大型資料集助推科研發展

除了作為參賽者的身份外，曠視也首次在 CVPR 舉辦了研討會和挑戰賽——DIW 物體檢測挑戰賽（Detection In the Wild Challenge Workshop）。一家創業公司回饋社群，加速技術推進。這樣的做法確實令人驚喜。

國內的技術公司在過去一直扮演著模仿和追趕的角色，但在人工智慧時代，這些企業正逐步掌握話語權。眾多在工業界發現的問題學術界鮮有涉獵，只有在資料量龐大、場景多元的中國才能被挖掘出來，這些問題的解決將對整個研究領域帶來巨大的推動作用，但需要有公司拋磚引玉。這就是曠視正在做的事情。

曠視為物體檢測任務引入了兩個新的基準挑戰賽：Objects365 和 CrowdHuman。Objects365 用於解決 365 個物體類別的大規模檢測問題。挑戰賽設定了兩個方向：60 萬訓練影象上的所有 365 個物體類別、以及用於在訓練影象的子集上處理數十個具有挑戰性的類別。而 CrowdHuman 是為人群人體檢測問題而設計，資料集包含了 34 萬人類例項。

本質上，曠視希望透過挑戰賽的形式，由資料層面出發推動演算法效能，拉高技術的上限達到實際產品需要的水準。俞剛負責此次挑戰賽的籌備，他告訴機器之心，此次挑戰賽總共有 300 多個隊伍報名註冊，有 70 多個隊伍給出了實驗結果。參賽的前幾名選手的結果比曠視內部的基準都高了很多，這給曠視帶來了許多創新思路。

DIW Workshop 現場

夜攝 Demo 展示：底層架構加快產品轉化

自 2016 年起，CVPR 專門闢出一塊區域用作工業展區，允許科技公司展示技術產品，增加和學界的交流。曠視今年帶來了 4 個 demo：動作控制街頭霸王對打、單攝影片虛化、夜攝超畫質以及 SLAM 機器人。

夜攝超畫質的 demo 位於曠視 CVPR 展臺的一角，有一個用紙箱搭建的暗光環境，紙箱內擺放了各種玩偶作為拍攝物件。用來測試的機型是剛剛搭載曠視夜攝技術的 Oppo Reno 10。

曠視超畫質樣張展示（右），遇到有多點燈光等人工照明的城市風光場景時，曠視超畫質技術都能給使用者帶來非凡的夜拍體驗

經過測試，機器之心記者發現該 demo 體現了兩個特點：一是拍照速度快，和傳統夜攝功能要求握住手機拍攝幾秒不同，Oppo Reno 10 的夜攝拍照和平時拍照的速度差異不大；二是影象細節逼真，因為紙箱裡有毛線團，在暗光環境裡手機依然能清晰地呈現出一根根毛線的細節。

目前，高階手機在正常光線下拍照下的成像差距不大，只有在極端情況才能體現差異，比如夜攝。去年穀歌釋出的 Pixel 3 和今年華為釋出的 P30 都依靠優秀的夜攝能力收穫了一票使用者。

但曠視的視覺專家王珏告訴機器之心，谷歌和華為背後所使用的影象降噪方法依然有缺點。傳統的影象降噪是用多幀降噪來彌補夜間進光量不足的問題，歸根結底是影象噪聲和訊號比太高，透過照片疊加可以增強訊號去掉噪聲，但弊端是需要拍多張並且保持手機不動，這需要使用者等上 3-4 秒的時間。手一抖就容易在照片出現拖影，也就是攝影界俗稱的「鬼影」。

王珏團隊想到了針對原始影象的神經網路方法。這條路過去幾乎沒有人走過，不僅僅是由於學界對原始影象的影象降噪還處於早期階段，體量巨大的神經網路模型如何在手機端上快速執行是另一大挑戰。

一個看似簡單的手機夜攝業務，中間有許多不為人知的細節打磨。這個過程，既有研究思路上的創新：比如曠視研究員從上世紀 70、80 年代的一些經典論文中研究了噪聲的統計規律和模擬的方法，研究了成像模式以後，資料生成的流程就被極大地簡化。

同時，也依賴於曠視內部多年來的技術積累。王珏透露，公司內部有一個 Model Zoo 的「武器庫」，這個平臺儲存了許多模型，基於不同的平臺、功耗要求、運算速度。研究團隊基於自身業務的需求，只要從 Model Zoo 中挑選幾十個模型架構加以微調，就可以極大地加快開發速度。最終模型的大小隻有 2。5G，整個拍照曝光時間控制在 300 毫秒左右。

專案落地之餘，王珏也帶領團隊「順便」參加了 CVPR 的去噪挑戰賽—NTIRE 2019 Real Image Denoising Challenge - Track 1： Raw-RGB，獲得了冠軍。團隊在研討會上分享完技術細節後，臺下的來自谷歌和三星的研究員都對曠視如何能將模型做到這麼小、在終端跑地那麼快表示好奇。

王珏透露，這裡面有曠視的底層系統化人工智慧框架「曠視 Brain++」和人工智慧資料管理平臺「曠視 Data++」的功勞。曠視從 2014 年開始就在開發 Brain++Engine，在 TensorFlow 還未出世、Caffe 和 Theano 等機器學習框架不適用自身業務的年代，曠視希望透過「曠視 Brain++」打造一套端到端的演算法引擎，打通從資料到部署的演算法全要素、全流程生產。王珏說，他們的模型一旦訓練完之後，Brain++Engine 可以做到一鍵打包在手機上封裝，實現終端最佳化和加速。

「曠視 Data++」是另一個曠視自研的資料標註和管理平臺。這可以節省研究員大量的時間，加速研究效率。前文提到的 Objects365 物體檢測資料集就是「曠視 Data++」提供的。

研究思路：應用導向和前沿探索雙管齊下

此次曠視入選 CVPR 的 14 篇論文，涉及了行人重識別、場景文字檢測、全景分割、影象超解析度、語義分割、時空檢測等技術方向。除了應用導向的工作以外，也探索了一些前沿學術問題。

孫劍是這樣總結的，「我們研究的的問題分兩類：直接和產品相關的技術問題，間接和產品相關的基礎問題。」

「前者因為有「曠視 Brain++」這個系統，可以很高效的將研發出來的技術或者演算法模型直接應該到產品上去。」

「後者的關鍵在於兩方面。一方面是選題，既不能搞短期的小修小補，也不能搞漫無邊際的發散式研究，這是個認識和判斷問題；另一方面是選題後的堅持和變通。基礎研究的一個很大特性是成功的可預測性低，這就要求既要我們堅持大方向，也要懂得適時的變通，修正目標或路線，這其實是個平衡問題。」

曠視目前的業務主線分為三塊：以手機為核心的個人裝置大腦場景，以城市感測器為核心的城市大腦場景，以及包含智慧製造、智慧物流、智慧零售的供應鏈大腦場景。

以曠視研究院物體檢測組為例，此次入選 CVPR 的 4 篇論文主要來自個人裝置大腦和城市大腦的場景需求，將產品中遇到的問題抽象出一些概念和細節，當成研究問題去解決。

比如，來自曠視研究院檢測組的論文《Shape Robust Text Detection with Progressive Scale Expansion Network》提出了一種新穎的漸進式尺度可拓展網路 PSENet 模型，針對場景文字檢測中任意形狀文字問題。

曠視的文字檢測技術有很多應用落腳點，比如車牌檢測、證件照檢測。這篇論文主要討論了場景文字檢測領域的兩個挑戰：其一，邊界框在定位任意形狀的文字時的效能很差，精度很低；其二，對於場景中兩個彼此接近、互相干擾的文字，現有技術可能會產生誤檢。論文提出的 PSENet 模型能夠為每個文字例項生成不同比例的核（kernel），並將最小比例的 kernel 逐步擴充套件生成完整形狀比例的 kernel，以適應不同大小的文字例項。

PSENet 模型的 pipeline

另一篇來自檢測組的論文《TACNet： Transition-Aware Context Network for Spatio-Temporal Action Detection》，在時空動作檢測研究領域針對時間維度問題提出了網路——TACNet（上下文轉換感知網路），可以改善時空動作檢測效能。這篇論文的應用落腳點是動作行為檢測，針對城市管理領域的產品設計。以老人的意外摔倒為例，一個月可能都沒有發生一次意外，用人工檢測影片裡的摔倒行為成本很高，但是演算法可以有效地檢測動作行為。

這篇論文的主要貢獻是定義真實行為和非真實行為的邊界。TACNet（上下文轉換感知網路）可以將類似於真實行為的模糊狀態樣本定義為「轉換狀態（transitional states）」，簡單來說是將影片不重要的部分弱化，而將注意力放在真正產生動作行為上。

轉換狀態是藍框，活動狀態是綠框，黃框是 ground truth。

同時，曠視也在放眼未來做長期的預演。國內計算機視覺公司競爭進入白熱化，頭部公司之間的在已有技術上的差距並不明顯，要形成差異，必須著眼於計算機視覺的未來，提前築起技術優勢壁壘。

曠視入選此次 CVPR 的論文中，關於 3D 點雲結構的研究和影象超解析度研究屬於前沿探索。以物體檢測為例，儘管目前大部分的計算機視覺工作都是圍繞 2D，但 2D 檢測本身存在天花板。其網路結構主要是一個金字塔形狀，影象越卷積下去越小，特徵圖譜丟失的資訊越多，對檢測的最終結果有很大的影響。

除了調整 2D 網路結構做最佳化之外，曠視認為研究 3D 檢測，與 2D 資訊形成互補是一個趨勢。點雲所提供的形狀資訊對物體檢測和定位帶來有效的幫助，和 2D 資訊的紋理顏色等特徵互補。

在論文《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》中，曠視提出了 Geo-CNN 模型，將深度卷積神經網路應用於 3D 點雲資料區域性區域中點的幾何結構建模。

影象超解析度的論文《Zoom in with Meta-SR： A Magnification-Arbitrary Network for Super-Resolution》來自曠視研究院基礎模型組，負責人張祥雨說，這篇研究背後的思路是基於權重預測，這是他個人非常看好的一個研究方向。他們提出了一種稱為 Meta-SR 的新方法，具體來說，Meta-SR 可以透過將任意縮放因子作為輸入來動態地預測每個 upscale 濾波器的權重，並使用這些權重來生成其他任意大小的高解析度影象（HR）。

基礎模型組在曠視研究院內負責公司中長期的研究專案，著重在前沿探索，包括權重預測、自動化機器學習（AutoML）、邊界框標註都是張祥雨的關注重點。

結語：曠視的技術信仰

這是曠視第五次參加 CVPR 了。過去，中國公司參加學術會議更多是為了刷存在感，互相之間比拼論文數量非要爭個高低。但在今年 CVPR 上，記者能看到這家創業公司身上成長的痕跡：

論文課題和產品落地之間有更緊密的聯絡。寫論文的目的不是為了刷學術業績，而是將科研結果轉化成產品競爭力。透過學術會議獲得同行認可，並最終帶來實際的商業價值。

曠視研究院演算法總監範浩強告訴機器之心，「曠視始終相信，要堅持產品導向，為產品找技術，用學界標杆作為產品定義的牽引。」

成長是一個過程，曠視經歷過起步的艱辛，也走過不少彎路。俞剛曾經回憶，過去檢測組的成員都只能復現前沿的論文，他一直鼓勵研究員不要去抄程式碼，自己去摸索論文細節來複現。經過幾年的積累，團隊開始主攻演算法的自主研發，贏了幾個挑戰賽後，團隊也找到了方向和信心。

王珏對夜攝專案落地的感觸特別深，加入曠視之前，王珏是 Adobe 的首席科學家，在計算機視覺計算機圖形學和人機互動有著卓越的學術貢獻。在曠視，王珏的目標是為開拓新的市場和業務線，提供強有力的技術支援，這需要王珏去適應角色的轉變，從一個研究者到一個專案管理者。

「你怎麼才能把研究做成一件可以預測的事情，工程追求的一種可控性，研究充滿了不確定性。在這兩者之間實際上是有矛盾的。經過這個專案，我們現在就很從容，整個團隊得到鍛鍊，我們也知道怎麼和客戶打交道。」

「我始終相信兩點：中國不缺乏聰明人，中國有世界上最好的發展機會，」孫劍補充道。「我們就是要把一幫聰明人聚起來，齊心協力，貫徹『發展就是硬道理』。

今年的 CVPR 已經落下帷幕，但曠視的故事還將繼續。

小蜜蜂問答

小蜜蜂問答

CVPR 2019 | 奪取6項冠軍的曠視如何築起演算法壁壘

推薦文章

小蜜蜂問答

小蜜蜂問答

CVPR 2019 | 奪取6項冠軍的曠視如何築起演算法壁壘

相關文章

對話CVPR2016：目標檢測新進展

深度學習的醫學影象資料集大盤點（2013-2020）

關於本次CVPR2019投稿的一些感想

清華髮起AI垃圾分類挑戰賽，姚期智院士親自頒獎，獎金總計30萬

推薦文章