SilhoNet：一種用於3D物件位姿估計和抓取規劃的RGB方法

作者：康斯坦奇

論文題目：

SilhoNet：An RGB Method for 3D Object Pose Estimation and Grasp Planning

論文地址：

公眾號「

3D視覺工坊

」後臺回覆「

silhonet

」，即可獲得論文原文。

摘要:

自主機器人操縱通常涉及估計待操縱物體的位姿和選擇可行的抓取點。使用RGB-D資料的方法在解決這些問題方面取得了巨大成功。但是，在某些情況下，成本限制或工作環境可能會限制RGB-D感測器的使用。當僅限於單目相機資料時，物件位姿估計和抓取點選擇的問題都是非常具有挑戰性的。過去，研究的重點是分別解決這些問題。在這項工作中，本文引入了一種名為SilhoNet的新方法，它彌合了這兩項任務之間的差距。本文使用卷積神經網路（CNN）架構，該架構接收感興趣區域（ROI）的提議，以此來同時預測具有相關遮擋掩模的物件的中間輪廓表示。然後從預測的輪廓迴歸3D位姿。在預先計算的資料庫中抓取點透過將它們反投影到遮擋掩模上來過濾，以找出在場景中可見的點。本文表明，本文的方法在YCB影片資料集上比用於3D位姿估計的最先進的PoseCNN網路實現了更好的整體效能。

一、位姿估計簡介

使用中間輪廓表示來促進在合成數據上學習模型以預測真實資料上的3D物件位姿，有效地橋接SIM到實際域移位；

在本文中，本文提出以下貢獻：

1）SilhoNet，一種新的基於RGB的深度學習方法，用於估計覆蓋場景遮擋的位姿估計；

2）使用中間輪廓表示來促進學習合成數據模型以預測在實際資料上的3D物件位姿，有效地彌合了SIM到實際的域轉移；

3）在新場景中使用推斷輪廓的投影選擇未被遮擋的抓取點的方法；

4）對視覺上具有挑戰性的YCB-Video資料集進行評估，其中提出的方法優於最先進的RGB方法。

二、SilhoNet方法

本文介紹了一種新穎的方法，該方法對單目彩色影象進行操作，以估計相對於相機中心的3D物體旋轉位姿，並預測視覺上未被遮擋的抓取點。該方法在兩個階段中操作，首先預測物件的中間輪廓表示和遮擋掩模，然後從預測的輪廓迴歸3D方向四元數。基於RGB視點中檢測到的物件的估計遮擋和物件模型的先驗知識，從預先計算的抓取資料庫確定可行抓取點。以下部分詳細介紹了本文的方法。

A.網路架構敘述

圖1顯示了本文的網路架構。網路的輸入是RGB影象，其具有用於檢測到的物件和相關聯的類標籤的邊界框ROI提議。第一階段使用VGG16主幹，最後使用反捲積層，從RGB輸入影象生成特徵圖。該特徵提取網路與PoseCNN中使用的相同。來自輸入影象的提取特徵與來自一組渲染物件視點的特徵連線，然後透過具有相同結構的兩個網路分支來預測完整的未被遮擋的輪廓和遮擋掩模。網路的第二階段透過ResNet-18架構傳遞預測的輪廓，在末端具有兩個全連線層，以輸出表示3D位姿的L2正則化四元數。

圖1 用於輪廓預測和3D位姿迴歸的SilhoNet網路概述

1）預測的ROIs：本文在YCB-video資料集上訓練了來自Tensorpack的現成的Faster RCNN模型，以預測ROI建議框。該網路在兩個Titan-VGPU上進行了訓練，在訓練影象集上使用預設引數進行了3，180，000次迭代，並且沒有任何合成數據增強。ROI提議在特徵提取階段之後作為網路的輸入提供，其中它們用於從輸入影象特徵圖中裁剪出相應的區域。然後透過縮小特徵圖或使用雙線性插值將其縮放，將裁剪的特徵圖調整寬度和高度為64x64。

2）渲染模型視點：文中透過生成一組與檢測到的物件類相關聯的合成預渲染視點作為網路第一階段的附加輸入來提高輪廓預測效能。對於每個類，文中從物件模型渲染了一組12個視點，每個視點的維度為224x224。這些視點是使用Phong著色在0°到300°的方位角間隔生成的，仰角為-30°和30°。由於中間目標是輪廓預測，儘管模擬物體的視覺外觀存在典型的區域變化，但是這些合成渲染在捕捉不同方向的真實物體的形狀和輪廓方面表現出色。

檢測到的物件類的所有視點都透過特徵提取階段，然後透過將它們傳遞到寬度為4和步幅為4的最大池化層，然後再增加兩個反捲層，將其調整為64x64，通道尺寸為32。文中為每個物件檢測提取了渲染的檢視的特徵對映。但是，為了增加網路效能時間，可以預先計算並存儲這些提取的特徵對映。這些渲染的視點特徵對映透過將它們堆疊在通道維度上然後與裁剪和調整大小的輸入影象特徵圖連線而提供給網路（圖1）。

3）輪廓預測：網路的第一階段將物件的中間輪廓表示預測為64×64維二元掩模。此輪廓表示物件的完整未被遮擋的視覺外形，就好像它使用相同的3D方向渲染但在框架中居中。框架中輪廓的大小對於影象中物件的比例是不變的。為每個物件選擇該距離，使得輪廓僅在框架內用於任何3D方向。網路的這個階段還具有並行分支，其輸出類似的輪廓，僅物件的未被遮擋的部分可見。本文將此被遮擋的輸出稱為“遮擋掩模”。

網路的第一部分是VGG16特徵提取器，它以1/2，1/4，1/8和1/16比例生成特徵圖。1/8和1/16比例特徵圖都具有512的輸出通道尺寸。使用兩個卷積層將兩者的通道尺寸減小到64，之後使用因子2將1/16比例尺放大到2倍。解卷積，然後用1/8比例對映求和。使用第二次反捲積將求和的地圖放大8倍，以獲得與輸入影象具有相同尺寸的最終特徵圖，其特徵通道寬度為64（圖1）。

在輸入影象透過特徵提取器之後，用於檢測到的物件的輸入ROI提議用於裁剪出所得特徵對映的相應區域並將其大小調整為64x64。此特徵貼圖與渲染的視點特徵貼圖連線在一起，從而生成大小為64x64x448的單個特徵向量矩陣。

特徵向量矩陣被饋送到兩個相同的網路分支中，其中一個輸出輪廓預測而另一個輸出遮擋掩模。每個分支由4個卷積層組成，每個卷層具有濾波器寬度，通道尺寸和步幅（2，1024，1），（2，512，2），（3，256，1）和（3，256），1）分別是具有濾波器寬度，通道尺寸和（2，256，2）步幅的去卷積層。反捲積層的輸出被饋送到降維卷積濾波器，其單通道輸出形狀為64×64。在輸出處應用S形啟用函式以產生機率圖。

4）3D位姿迴歸：本文對3D位姿使用四元數表示，其可以將連續空間中的任意3D旋轉表示為長度為4的單位向量。四元數表示特別有吸引力，因為它不像尤拉角表示那樣受到萬向節鎖定的影響。

網路的第二階段接收預測的輪廓機率圖，將某些值閾值化為二進位制掩模，並輸出物件位姿的四元數預測。網路的這個階段由ResNet-18骨幹網組成，其中來自平均池和下面的層被兩個完全連線的層替換。最後一個完全連線的層具有輸出維度4x（#class），其中每個類具有單獨的輸出向量。從輸出中提取檢測到的物件的類的預測向量，並使用L2範數進行歸一化以獲得最終的四元數預測（圖1）。

因為物件的輪廓表示是無特徵的，所以該方法將物件形狀中的對稱性視為3D位姿空間中的等效對稱。在許多機器人操作場景中，這是一個有效的假設。例如，在RGB特徵空間中可能不對稱的諸如螺絲刀之類的工具在形狀上是對稱的並且在抓取空間中等效地對稱。然而，這項工作的未來目標是將3D位姿估計擴充套件到特徵空間中的非對稱性。可以在形狀上對稱但不在特徵空間中的物件的示例是具有特徵豐富標籤的湯罐。在某些操作任務中，可能需要以特定方式定向標籤，在這種情況下，需要特徵空間中的獨特位姿。

透過從中間輪廓表示迴歸3D位姿，本文能夠僅使用合成渲染的輪廓資料來訓練網路的這個階段。在本文的結果中，本文表明網路很好地預測了真實資料上的位姿，表明這種中間表示是橋接真實資料和合成資料之間域轉換的有效方法。

B．抓取點檢測

本文方法的最後一步是檢測視覺上可行的抓取點。給定物件的估計3D位姿和預先計算的抓取點的資料庫，本文將每個抓取點從物件框架投影到相機框架中的遮擋掩模上。位於掩模的未被遮擋部分上的點被認為是有效的，並且可以從有效集中選擇最高得分抓取。本文使用自定義生成的物件抓取點資料庫演示了圖4中的方法。有許多庫可用於促進抓取點資料庫的自動計算，例如DexNetAPI。

C．資料集

本文在YCB影片資料集上評估了本文的方法，該資料集由92個影片序列組成，包括133，827個幀，共包含21個物件，以不同的排列方式出現，具有不同的遮擋水平。從訓練集中保留了12個影片序列以進行驗證和測試。在輪廓空間中，該資料集中的物件由五種不同型別的對稱性表徵：非對稱，關於平面對稱，關於兩個垂直平面對稱，關於軸對稱，關於軸和平面對稱。本文對所有呈現任何形式對稱的物件的座標系應用了旋轉校正，以使每個軸或對稱平面與座標軸對齊。從標記的物件位姿生成地面實況四元數，使得只有一個唯一的四元數與產生相同視覺外殼的每個視點相關聯。對於所有匹配的輪廓視點具有一致的四元數標籤使得位姿預測網路能夠有效地訓練所有型別使用非常簡單的距離損失函式的物件對稱性。

補充YCB-影片資料集中的真實影象資料是80，000個合成渲染影象，所有21個物件以透明背景的各種組合和隨機位姿出現。本文透過從COCO2017資料集中隨機抽樣影象並在訓練時將它們作為這些合成影象的背景應用來補充訓練資料。

D．訓練網路

所有網路都使用TitanV或TitanXGPU上的Adam最佳化器進行訓練。使用ImageNet預訓練的權重初始化VGG16骨幹，並且使用批次大小為6的325，000次迭代的交叉熵損失來訓練輪廓預測網路。本文使用地面實況ROI對網路進行了訓練，並針對地面實況ROI和來自在YCB影片資料集上訓練的Faster-RCNN網路的預測ROI進行了測試。

使用預測和地面實況四元數之間的以下對數距離函式來訓練3D位姿迴歸網路：

其中q是基本事實四元數，eq是預測的四元數，並且是穩定性的一個小值，在本文的例子中e鈭鈭位姿預測網路經過380，000次迭代訓練，批次大小為16，僅使用完美的地面實況輪廓為了訓練。測試是根據鏗乺st階段網路的預測輪廓進行的。

為了減少在輪廓預測網路的訓練期間的過度配置，在特徵提取網路的最後一個去卷積層之前以及在每個輪廓預測分支的第四卷積層上以0。5的速率應用丟失。在訓練3D位姿迴歸網路期間，在第一完全連線層之前以0。8的速率應用丟失。作為減少過度訓練和擴充套件訓練資料的進一步策略，訓練影象的色調，飽和度和曝光隨機縮放了1。5倍。

三、結果

以下部分介紹了在YCB影片資料集上測試的SilhoNet的效能。A部分表示輪廓預測階段的準確性。B部分比較了SilhoNet的3D位姿估計效能與PoseCNN的效能。並且C部分討論了使用預測的遮擋掩模和3D位姿進行抓取點檢測的方法。

A．掩碼預測

本文使用來自YCB資料集的真值標定ROI輸入和來自FasterRCNN網路的預測ROI輸入測試了SilhoNet的輪廓預測階段的效能。圖2示出了測試集中的一個影象的輪廓預測的示例。表I顯示了被遮擋和未被遮擋的輪廓預測的準確度，測量為預測輪廓與地面實況輪廓的平均交叉（IoU）。總體而言，當預測的ROI作為輸入而不是基礎事實提供時，效能會降低幾個百分點，但在大多數類別中，預測對ROI輸入是穩健的。當使用預測的ROI時，效能的最大降級是針對“037剪刀”和“011香蕉”類別，其具有薄且低紋理的特徵。

圖2 示例預測來自測試影象的被遮擋和未被遮擋的輪廓

表1 在YCB-VIDEO測試裝置上預測的SILHOUETTES的平均精度

B．3D位姿迴歸

本文比較了SilhoNet的3D位姿預測與PoseCNN的公佈結果的效能，無論是否有迭代最近點（ICP）改進。圖3顯示了PoseCNN和SilhoNet兩種方法的準確度曲線，其中YCB地面實況ROI輸入和FasterRCNN預測ROI輸入。SilhoNet的整體效能與基本事實和預測的投資回報率相當，總體而言，SilhoNet在有或沒有ICP改進的情況下顯著優於PoseCNN。表II列出了PoseCNN和SilhoNet方法中每個類別的平均準確度誤差。SilhoNet相對於PoseCNN的預測精度最差的類別是“021漂白清潔劑”。SilhoNet將此物件視為輪廓空間中的非對稱，但形狀幾乎是平面對稱的，因此輪廓中的位姿預測可能很容易混淆。對於幾個質地較差的物體，SilhoNet的表現優於PoseCNN。最好的例子是“011banana”類，它在特徵和輪廓空間都是非對稱的。

圖3。 YCB影片資料集中所有物件的3D位姿精度曲線

表2 YCB-VIDEO測試裝置中的平均三維位置旋轉誤差

C．抓取點檢測

該方法的目標是融合單眼影象中的物件的3D位姿估計與未被遮擋的抓取點檢測，以便在雜亂的場景中進行抓取規劃。本文透過在物件框架中獲取預先計算的抓取點並將它們投影到預測的物件遮擋掩模上來實現此目的。那些不在遮擋掩模上的點被認為是無效的。圖4顯示了將預測的遮擋掩模和3D位姿估計與預先計算的抓取資料庫組合以過濾可見抓取點的過程的示意圖。圖中的最終影象顯示了投射回場景的抓取點，並透過哪些點可見並因此有效而著色。瞭解哪個抓取點被遮擋可以使機器人能夠確定物體是否足夠清晰以便抓取或者是否必須採取一些其他步驟以實現對物體的無阻礙抓取。

圖4。未被遮擋的抓取點以綠色顯示，而遮擋的點以紅色顯示

四、結論

本文表明該方法優於最先進的PoseCNN網路，用於3D位姿估計。YCB影片資料集中的大多數物件類。此外，透過對檢測到的物件使用中間輪廓表示，本文示出了可以在影象中檢測到視覺上未被遮擋的抓取點並且用於從預先計算的抓取資料庫中通知抓取規劃。目前，該方法預測了輪廓空間中對稱性所特有的3D位姿。未來的工作將集中在擴充套件此方法以構建在特徵空間中也是唯一的預測，儘管物件形狀是對稱的。

本文僅做學術分享，如有侵權，請聯絡刪文。

往期乾貨資源：

彙總 | 國內最全的3D視覺學習資源，涉及計算機視覺、SLAM、三維重建、點雲處理、姿態估計、深度估計、3D檢測、自動駕駛、深度學習（3D+2D）、影象處理、立體視覺、結構光等方向！

彙總 | 3D目標檢測（基於點雲、雙目、單目）

彙總 | 6D姿態估計算法（基於點雲、單目、投票方式）

彙總 | 三維重建演算法實戰（單目重建、立體視覺、多檢視幾何）

彙總 | 3D點雲後處理演算法（匹配、檢索、濾波、識別）

彙總 | SLAM演算法（視覺里程計、後端最佳化、迴環檢測）

彙總 | 深度學習&自動駕駛前沿演算法研究（檢測、分割、多感測器融合）

彙總 | 相機標定演算法

彙總 | 事件相機原理

彙總 | 結構光經典演算法

彙總 | 缺陷檢測常用演算法與實戰技巧

小蜜蜂問答

小蜜蜂問答

SilhoNet：一種用於3D物件位姿估計和抓取規劃的RGB方法

推薦文章

小蜜蜂問答

小蜜蜂問答

SilhoNet：一種用於3D物件位姿估計和抓取規劃的RGB方法

相關文章

捏和掐的區別？

簡單畫坐在公園椅子上的人？

8張限定券了想在忍著薩姆依和矢倉中選一個，哪個強度高？

《火影忍者》手遊中，鷹佐助比較容易被哪些忍者剋制？為什麼會這麼說？

推薦文章