面向未知環(huán)境的理鞋機器人系統(tǒng)設(shè)計與實現(xiàn)

作者：唐曉龍黃惠來源：《深圳大學學報(理工版)》日期：2022-10-11人氣：1198

隨著生活水平的提升，人類對家居環(huán)境的品質(zhì)要求越來越高．家居環(huán)境給人們帶來的便捷與舒適成為生活中必不可少的要素，但仍有些問題未得到解決，其中之一就是鞋子擺放雜亂．近年來人們不斷嘗試通過部署機器人來解決日常生活中遇到的問題，服務(wù)型機器人逐漸進入大眾視野．然而時至今日，關(guān)于機器人自主整理鞋子的研究仍不多．為完成自主整理任務(wù)，首先需要機器人具有感知能力，這也是計算機視覺和機器人學科的長期目標．隨著傳感器設(shè)備的發(fā)展，機器人通過裝備的RGB相機和深度相機來捕捉豐富的環(huán)境信息，并從這些原始圖像中提取高級語義信息實現(xiàn)基于視覺的感知，被抓取的信息通常包括目標對象的位置和方向．機器人整理鞋子的任務(wù)是讓機器人識別定位鞋子及鞋子朝向，然后找到一個合適的抓取位姿，再執(zhí)行路徑規(guī)劃，完成相應(yīng)的物理抓?。狙芯炕谏疃葘W習方法，利用實例分割網(wǎng)絡(luò)訓練鞋子檢測模型得到圖片中鞋子的掩碼信息．根據(jù)設(shè)計的鞋子朝向識別算法和深度相機中的點云信息估計機器人的抓取位姿，鞋子的朝向識別保證了鞋子能正向擺放．通過預訓練的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural net?work，CNN）提取鞋子特征，建立鞋子的特征數(shù)據(jù)庫，并利用余弦相似度設(shè)計鞋子的匹配算法完成同一雙鞋子的匹配．最后將其部署到真實的機器人上，完成真機的鞋子整理任務(wù)．

1 目標檢測和位姿估計相關(guān)工作

傳統(tǒng)的目標檢測算法一般分為3部分：①采用滑動窗口方法或圖像分割技術(shù)生成大量的候選區(qū)域；②對候選區(qū)域進行圖像特征提?。ㄈ鏗OG^[1]， SIFT^[2]和HAAR^[3]等），提取結(jié)果輸入到分類器（如ADABOOST^[4]和RANDOM FOREST^[5]等）中，輸出候選區(qū)域的類別；③合并候選區(qū)域，實現(xiàn)物體的檢測．傳統(tǒng)的目標檢測算法主要依賴于模板匹配，利用人工設(shè)計的描述符^[2，6-7]解決單一目標檢測問題．但此類算法存在兩個缺陷：一是基于滑動窗口的區(qū)域選擇策略針對性不強，復雜度和冗余都比較高；另一個是手工設(shè)計的特征有局限性，不能用于多目標檢測，令檢測結(jié)果與實際需求相差較大．

隨著深度學習的不斷進步，深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的使用越來越廣泛，也為目標檢測提供了新的研究方向．基于深度學習的目標檢測算法可分為基于回歸的目標檢測算法（即單階段目標檢測算法）和基于區(qū)域建議的目標檢測算法（即兩階段目標檢測算法）．單階段目標檢測算法不需要區(qū)域建議階段，而是直接提取特征，只通過一個卷積神經(jīng)網(wǎng)絡(luò)得到物體的類別概率和位置坐標值，將檢測簡化成回歸問題．基于回歸的目標檢測算法摒棄了候選區(qū)域的思想，不使用區(qū)域候選網(wǎng)絡(luò)（region proposal network，RPN），直接在一個網(wǎng)絡(luò)中進行回歸和分類，如YOLO^[9]和SSD^[10]．此類算法因網(wǎng)絡(luò)的減少避免了一些重復計算，速度得到了提升．

基于區(qū)域建議的目標檢測算法實現(xiàn)分為兩個階段：①輸入圖像做處理生成候選區(qū)域；②對候選區(qū)域進行分類和位置回歸并最終完成檢測． GIRSHICK等提出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（region CNN， R-CNN）^[11]和fast R-CNN^[12]目標檢測網(wǎng)絡(luò)模型． REN等^[13]提出的faster R-CNN網(wǎng)絡(luò)模型，將特征提取、預測、包圍盒回歸和分類整合在一個網(wǎng)絡(luò)中，極大提升了檢測速度．HE等^[14]提出的mask R-CNN網(wǎng)絡(luò)模型，則是在特征提取方面采用faster R-CNN網(wǎng)絡(luò)模型的架構(gòu)，再額外添加掩碼預測分支，使實例分割在準確率及靈活性上都取得很大進步．

隨著機器人自主能力的發(fā)展，智能機器人的應(yīng)用越來越多樣化^[15]．抓取是機器人的基礎(chǔ)操作任務(wù)之一，抓取位姿檢測是指識別給定圖像中物體的抓握點或抓握姿態(tài)^[16]，抓取所需基本信息則是抓取器在相機坐標系中的6維（抓取器的3維空間位置和3維旋轉(zhuǎn)角度）抓取位姿．在基于視覺的機器人抓取中，根據(jù)抓取方式的不同將抓取位姿分為2維平面抓取和3維空間抓?。?/p>

針對抓取問題，SAXENA等^[16]提出不需要構(gòu)建物體三維模型，直接根據(jù)圖像預測抓取點的三維位置的算法，但算法定義的抓取點只含抓取的位置信息，無角度信息．JIANG等^[17]利用圖像中的定向矩形表示抓取位置和角度，但算法耗時較長．LENZ等^[18]提出具有兩個深度網(wǎng)絡(luò)的兩步級聯(lián)系統(tǒng)，可實現(xiàn)對大量候選抓取位姿快速且可靠的評估，有效減少了不太可能的抓取位姿．REDMON等^[19]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的準確、實時的機器人抓取檢測方法，通過對可抓取的邊界框執(zhí)行單階段回歸，實現(xiàn)對目標對象的抓取檢測．本研究通過結(jié)合鞋子方向和鞋口檢測，實現(xiàn)快速且高效地檢測抓取位姿．

2 鞋類檢測和方向識別

本研究使用的鞋類圖像數(shù)據(jù)源自兩部分：①網(wǎng)絡(luò)爬取和從鞋類數(shù)據(jù)集中抽?。虎诓捎肒inect2深度相機采集的真實環(huán)境下的鞋和鞋架圖像包括原始圖像數(shù)據(jù)200張，以及通過數(shù)據(jù)增強制作包含原始圖像的1 000張鞋類圖像，這1 000張圖像中900張為訓練集（400張源自網(wǎng)絡(luò)，500張源自真實環(huán)境），100張為測試集（網(wǎng)絡(luò)圖像和真實環(huán)境的圖像各50張）．

采用Labelme軟件對圖像進行標注，使用不規(guī)則多邊形標記鞋、鞋口和鞋架的基本輪廓，結(jié)果如圖1．

圖1 采用Labelme軟件對鞋和鞋架圖像進行數(shù)據(jù)標注（a）原圖；（b）標注結(jié)果Fig. 1 Use Labelme to annotate shoes and shoes rack images. (a) Original images, (b) annotate images.

為提高模型泛化能力，對原始圖像分別采用隨機旋轉(zhuǎn)一定角度、水平翻轉(zhuǎn)、添加高斯噪聲和顏色抖動的方式進行數(shù)據(jù)增強，如圖2．

圖2 數(shù)據(jù)增強（a）原圖；（b）旋轉(zhuǎn)；（c）翻轉(zhuǎn)；（d）顏色抖動；（e）噪聲Fig. 2 Data augmentation. (a) Original image, (b) rotating, (c) flip, (d) color dithering, (e) noise.

圖像分割目的是將物體識別問題轉(zhuǎn)化為圖像分類問題．現(xiàn)階段的圖像分割方法思路有兩種：一種是使用不同尺寸的滑動窗口遍歷整張圖像，全面分析圖像內(nèi)容，缺點是冗余度高且速度慢；另一種是先將原始圖像分割成不重合的小塊，再通過CNN獲得特征圖，特征圖的每個元素對應(yīng)原始圖像的一個小塊，最后利用該元素預測那些中心點在小塊內(nèi)的目標，該方法運算量少但準確率會下降．實例分割網(wǎng)絡(luò)mask R-CNN^[15]是當前工程界首選的檢測算法之一，它借鑒特征金字塔網(wǎng)絡(luò)（feature pyramid networks，F(xiàn)PN）^[20]的思想，輸出3個不同尺度的特征圖，實現(xiàn)了多尺度的目標檢測，具有結(jié)構(gòu)清晰、實時性好和準確率高的特點．

本研究將機器人相機視角下在同一張圖片中捕捉到的鞋和鞋架信息存儲為RGB圖像，再采用mask R-CNN網(wǎng)絡(luò)模型檢測圖像中需整理的鞋子和擬放置的鞋架．

檢測模塊包含鞋子檢測和鞋架檢測兩部分．先利用mask R-CNN網(wǎng)絡(luò)模型在數(shù)據(jù)增強后的鞋子和鞋架數(shù)據(jù)集上訓練網(wǎng)絡(luò)識別模型，再將場景圖片輸入到訓練好的實例分割網(wǎng)絡(luò)模型中進行物體檢測，如圖3．Mask R-CNN網(wǎng)絡(luò)模型不但能準確識別出圖像中被檢測物體的類別，還可用不同顏色的掩碼和矩形框標記出被檢測物體的區(qū)域、輪廓和位置．

圖3 Mask R-CNN檢測過程Fig. 3 Mask R-CNN detection process.

考慮到鞋是長條形的，本研究采用最小外接矩形（minimum enclosing rectangle，MER）方法替代直邊界矩形框方法，獲得更貼合鞋子的形狀特點的檢測框，同時還可獲得鞋子的傾斜角度．圖4給出了一個矩形檢測框識別結(jié)果的示例．其中，白色區(qū)域是圖像中部分像素點的集合．最小外接矩形是指給出一個凸多邊形的頂點，求出外接該多邊形且面積最小的矩形．通過計算可獲得矩形框中心點像素的坐標( x，y )和相對水平線的旋轉(zhuǎn)角度θ．

圖4 矩形檢測框識別結(jié)果（a）原圖；（b）直邊界矩形；（c）最小外接矩形Fig. 4 Rectangular detection frame. (a) Original image, (b) straight bounding rectangle, (c) minimum enclosing rectangle.

圖5（b）是采用mask R-CNN進行檢測識別后的鞋子圖像，不同的顏色區(qū)域表示實例分割之后的掩碼區(qū)域．從實例分割的結(jié)果中可提取出鞋子部分像素的掩碼點集信息，進而計算出鞋子的最小外接矩形框，如圖5（c）．其中，shoe和mouth分別表示目標分類為鞋子或鞋口；數(shù)值代表對該檢測分類的確定程度，其值分布在[ 0，1]內(nèi)，0代表十分不可信， 1代表十分可信．

圖5 鞋子檢測結(jié)果（a）原圖；（b）直邊界矩形；（c）最小外接矩形Fig. 5 Shoes detection. (a) Original image, (b) straight bounding rectangle, (c) minimum enclosing rectangle.

采用MER方法雖然得到了比較貼合鞋子形狀特點，且與鞋子方向信息關(guān)聯(lián)的旋轉(zhuǎn)θ角度的矩形框，但仍未解決鞋子朝向識別的問題．為此，本研究在標記鞋子訓練數(shù)據(jù)的同時，對每只鞋子的鞋口進行標記．已訓練的網(wǎng)絡(luò)模型檢測出鞋子和鞋口的掩碼信息后，利用最小外接矩形框可分別計得鞋子和鞋口的最小外接矩形框的中心點（p₁和p₂）的坐標和旋轉(zhuǎn)角度，如圖6．大多數(shù)情況下，p₂指向p₁的方向即為鞋子朝向．但對于含有多只鞋子的圖片，僅采用mask R-CNN進行檢測并不能準確判斷鞋口和鞋子的對應(yīng)關(guān)系，因此還要利用OpenCV計算p₂是否處于某一只鞋子的最小外接矩形區(qū)域內(nèi)，以此來判斷鞋口和鞋子的對應(yīng)關(guān)系．

圖6 鞋子朝向識別（a）檢測結(jié)果；（b）朝向識別結(jié)果Fig. 6 Shoes orientation recognition. (a) Detection result, (b) orientation recognition result.

3 位姿估計

位姿估計主要分為抓取位姿估計和目標位姿（放置位姿）估計．前者定義抓取鞋子的6維抓取姿態(tài)，后者定義抓取后的6維放置姿態(tài)．鞋子的3維空間位置使用深度相機的點云信息獲?。ㄟ^鞋子朝向識別算法識別出鞋子朝向并幫助確定抓取的旋轉(zhuǎn)角度．同樣，利用深度相機的點云信息獲取鞋架放置點的3維空間位置．通過識別鞋架上木板的旋轉(zhuǎn)角確定抓手的旋轉(zhuǎn)角．

鞋子整理問題可以定義為2維平面內(nèi)的抓取問題，適用場景通常是將物體水平放置在平面上，抓取器只能從豎直方向上抓取物體．2維平面內(nèi)的抓取位姿估計需獲取物體的位置信息，結(jié)合抓手的旋轉(zhuǎn)角度，形成一個可靠的抓取位姿，如圖7．

圖7 二維場景下的位姿估計Fig. 7 Pose estimation in 2D scene.

定義鞋口的右邊緣位置是機器人的抓取位置，如圖8所示較短藍色箭頭終點的位置．根據(jù)識別的鞋子朝向結(jié)果確定抓手的旋轉(zhuǎn)角度，從而得到可靠的抓取位姿．

圖8 鞋子抓取位姿確定Fig. 8 Grasp pose of the shoes.

擺放鞋子的目標位姿包括鞋架上放置點的3維空間位置和抓手放置時的旋轉(zhuǎn)角度．3維空間位置由模型鞋架檢測結(jié)果和深度相機Kinect2的點云信息相結(jié)合獲取．旋轉(zhuǎn)角度則根據(jù)鞋架的擺放方向確定抓手的放置旋轉(zhuǎn)角度，如圖9．

圖9 鞋子放置位姿Fig. 9 Place pose on the shoe rack.

同樣利用MER方法計算出鞋架的中心位置以及矩形框的寬度和長度，由此確定鞋架板的邊緣位置，將其定義為第1個擺放位置．機器人每擺放1只鞋子，其擺放位置是根據(jù)上一個擺放位置在鞋架板上沿著藍色箭頭方向，移動一段根據(jù)鞋子大致寬度而設(shè)的距離，并且移動的總距離不能超過鞋架板的長度，如圖 10．

圖 10 精確的放置位置（a）鞋架中心；（b）首個放置點；（c）其余放置點Fig. 10 Precise placement. (a) Rack center, (b) first placement, (c) other placement.

4 鞋子匹配算法

根據(jù)鞋子整理任務(wù)中把同一雙鞋子整理到一起的需求，本研究設(shè)計了鞋子匹配算法．利用目標檢測結(jié)果對場景圖片中的鞋子做裁剪旋轉(zhuǎn)并保存成統(tǒng)一的格式，再使用預訓練的VGG16卷積神經(jīng)網(wǎng)絡(luò)對鞋子進行特征提取并建立鞋子的特征數(shù)據(jù)庫，最后通過計算鞋子特征向量之間的余弦相似度辨別兩只鞋子的匹配度，完成鞋子的匹配．

在鞋子匹配前，需獲取同一圖像中每只鞋子的圖像．在多鞋子圖像中識別單只鞋子的方法主要有兩種．方法1保留鞋子的原始位置，根據(jù)掩碼檢測結(jié)果只保留單只鞋子的像素部分，其余部分用黑色背景填充，如圖 11（a）．利用此種方法獲取的單只鞋子圖像進行匹配，鞋子的擺放位置和朝向會對匹配結(jié)果產(chǎn)生較大影響．方法2先獲取鞋子朝向的角度，將鞋子統(tǒng)一旋轉(zhuǎn)成豎直向上方向，再根據(jù)矩形框?qū)π訄D像進行裁剪．最終圖像中所有鞋子朝向一致，且單只鞋子的圖像只保留了鞋子部分的像素，減少了干擾匹配相似度計算的無用信息，提高了匹配的準確率．本研究使用mask R-CNN分割網(wǎng)絡(luò)和鞋子朝向識別算法識別出鞋子的朝向和比較貼合鞋子形狀特點的矩形框，同時根據(jù)鞋子的朝向獲得相應(yīng)的旋轉(zhuǎn)角度，將原圖中的鞋子進行裁剪和旋轉(zhuǎn)，全部處理成豎直向上形式，如圖 11（b）．

圖 11 多鞋子圖像中單只鞋子的分離識別結(jié)果（a）保留單只鞋子原始位置分離方式；（b）統(tǒng)一單只鞋子方向的分離方式Fig. 11 The separation recognition result of single shoe in multi-shoes image. (a) Keep the original position of single shoe method, (b) unify the orientation of single shoe method.

首先利用在 ImageNet 數(shù)據(jù)集上預訓練的VGG16網(wǎng)絡(luò)模型提取圖像中每只鞋子的特征，建立包含所有鞋子特征的數(shù)據(jù)庫，然后利用網(wǎng)絡(luò)提取的特征計算單只鞋子圖像之間的余弦相似度，最終實現(xiàn)鞋子匹配．一雙鞋子的匹配流程如圖 12．

圖 12 鞋子的匹配流程Fig. 12 Shoes matching process.

余弦相似度是通過計算兩個向量之間的夾角的余弦值來評估他們的相似程度，夾角越小，余弦值越接近1，兩向量的方向越一致，表明向量之間越相似．給定兩個n維屬性的向量A和B，θ為兩向量之間的夾角，則它們的余弦相似度為其中， A_i和B_i分別為A和B的第i個分量．cos θ=-1表示兩向量方向相反；cos θ=1表示兩向量方向相同；cos θ=0表示兩向量互相獨立．cos θ越接近1，表明兩只鞋子提取出的特征越相似，是一對的可能性越高．

5 真機實驗和結(jié)果分析

本研究中的模型訓練使用2張8 GByte的Quadro M5000顯卡，圖形處理器（graphics processing unit， GPU）每次處理2張圖片，學習率為0. 001，迭代次數(shù)為300 epochs．使用1 000張標注圖像作為訓練集，其中100張作為測試集．訓練模型的損失函數(shù)、邊界框的損失函數(shù)和掩碼的損失函數(shù)皆隨著迭代次數(shù)的增加逐漸收斂．

為量化實驗結(jié)果，采用平均精度（mean average precision，mAP）來評定訓練模型對多標簽圖像中所有類別進行檢測的效果．表1給出了迭代次數(shù)τ為分別為50、150和300 epochs時，采用Mask R-CNN模型對100張測試圖片進行分類檢測后的mAP值、對12張總共包含78只鞋子的圖片進行朝向識別的準確率A_o和模型訓練耗時t．表1表明，隨著迭代次數(shù)的增加，mask R-CNN模型對鞋子的識別效果和鞋子朝向識別的準確率隨之提升，但相對地訓練耗時會增加．

表1 Mask R-CNN模型訓練迭代次數(shù)對識別性能的影響Table 1 Comparison of model detection and orientation recognition performance

圖 13對比了訓練模型τ分別為50、150和300 epochs時進行目標檢測的結(jié)果．從圖 13可見，隨著迭代次數(shù)的增加，模型識別效果越來越準確，掩碼邊緣識別效果隨之提升．

采用統(tǒng)一單只鞋子方向的圖像處理方式，對比只采用余弦相似度和加入VGG16特征提取兩種方法的匹配準確率，結(jié)果如表2．由表2可見，加入VGG16提取特征后進行相似度計算，可明顯提升算法匹配準確率．

圖 13 不同訓練次數(shù)對鞋子實例分割的結(jié)果（a）原圖；（b）檢測結(jié)果；（c）Ground truth；（d）掩碼結(jié)果（上排為τ=50 epochs，中排為τ=150 epochs，下排為τ=300 epochs） Fig. 13 Comparison of shoes instance segmentation results. (a) Original images, (b) detection images, (c) Ground truth images, (d) mask images. (The images from top to bottom are τ=50，150，300 epochs respectively.)

表2 只采用余弦相似度和加入VGG16特征提取兩種方法匹配準確率對比Table 2 Comparison of shoe matching methods of using cosine similarity and VGG16+cosine similarity, respectively.

實例分割網(wǎng)絡(luò)的作用是檢測圖像中的可抓取物體，因此，本研究利用機器人操作系統(tǒng)（robot oper?ating system，ROS）中的機械臂路徑規(guī)劃算法，探尋機械臂抓取鞋子目標的實際控制途徑．路徑規(guī)劃算法需要提供一個在機器人基座坐標系下的3維抓取位置，而本研究的檢測網(wǎng)絡(luò)只能識別2維圖像上的抓取位置，因此要進行相機標定，將2維圖像的抓取位置轉(zhuǎn)換到相機坐標系空間，再進行機械臂的手眼標定將相機坐標系轉(zhuǎn)換到機器人基座坐標系空間，最終得到待抓取物體在機器人基座坐標系中的空間位置．圖 14是機器人在鞋子整理過程中的部分視頻幀．每一行幀圖片顯示的是完成1只鞋子的整理任務(wù)，第1列幀圖片是機器人根據(jù)抓取位姿實現(xiàn)抓取鞋口的右邊緣，第2列幀圖片是根據(jù)識別的鞋子朝向?qū)⑿訑[正，第3列幀圖片是機器人根據(jù)放置位姿將鞋子擺放到鞋架上．機器人每完成一只鞋子的整理任務(wù)后，根據(jù)鞋子匹配算法對未整理鞋子進行匹配和整理，從而完成一雙鞋子的整理任務(wù)．如此反復，最終實現(xiàn)對所有鞋子的整理．

圖 14 機器人整理鞋子真機實驗的部分的視頻幀（左下角為同步的點云） Fig. 14 Part of video frames of real robot experiment of shoes arrangement. (The bottom left corner is the synchronized point cloud.)

結(jié) 語

設(shè)計了一套基于3維視覺的機器人自主理鞋系統(tǒng)．采用mask R-CNN網(wǎng)絡(luò)模型在自制數(shù)據(jù)集上訓練檢測模型，實現(xiàn)鞋子和鞋架檢測和像素級別的實例分割．利用實例分割得到的掩碼點集合和最小外接矩形框方法設(shè)計鞋子朝向識別算法，并由此估計出鞋子的抓取位姿和放置位姿．利用目標檢測結(jié)果對場景圖片中的鞋子做裁剪，旋轉(zhuǎn)后保存成統(tǒng)一的格式，再使用預訓練的卷積神經(jīng)網(wǎng)絡(luò)VGG16對鞋子特征進行提取并建立鞋子的特征數(shù)據(jù)庫，通過計算兩只鞋子特征之間的余弦相似度實現(xiàn)鞋子匹配．建立了機器人的視覺系統(tǒng)，將深度相機Kinect2作為機器人的視覺感知器，采用相機標定獲取相機內(nèi)外參數(shù)，通過手眼標定完成相機坐標系和機器人基坐標系的統(tǒng)一，從而獲得相機在機器人基坐標系下的位姿．基于ROS完成真實機械臂的控制程序設(shè)計工作，利用深度相機的點云信息完成目標定位的功能，實現(xiàn)真機測試．

未來將繼續(xù)構(gòu)建更大的鞋類數(shù)據(jù)集，提高目標檢測的準確率和魯棒性，為匹配和定位提供更加穩(wěn)定強健的基礎(chǔ)保障．在鞋子檢測和匹配中，由于鞋子左右的特征區(qū)分度較低，本研究未能實現(xiàn)鞋子左右的區(qū)分，所以未來如何提高鞋子左右特征的區(qū)分度，準確實現(xiàn)鞋子左右的檢測是一個可持續(xù)探索的研究方向．

關(guān)鍵字：優(yōu)秀論文

上一篇：基于多約束場景的BFO-ACO漫游路徑規(guī)劃
下一篇：黃河濱水休閑旅游空間開發(fā)與保護研究

欄目分類

熱門排行

推薦信息

期刊知識