面向未知環(huán)境的理鞋機(jī)器人系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
隨著生活水平的提升,人類對(duì)家居環(huán)境的品質(zhì)要求越來(lái)越高.家居環(huán)境給人們帶來(lái)的便捷與舒適成為生活中必不可少的要素,但仍有些問(wèn)題未得到解決,其中之一就是鞋子擺放雜亂.近年來(lái)人們不斷嘗試通過(guò)部署機(jī)器人來(lái)解決日常生活中遇到的問(wèn)題,服務(wù)型機(jī)器人逐漸進(jìn)入大眾視野.然而時(shí)至今日,關(guān)于機(jī)器人自主整理鞋子的研究仍不多.為完成自主整理任務(wù),首先需要機(jī)器人具有感知能力,這也是計(jì)算機(jī)視覺和機(jī)器人學(xué)科的長(zhǎng)期目標(biāo).隨著傳感器設(shè)備的發(fā)展,機(jī)器人通過(guò)裝備的RGB相機(jī)和深度相機(jī)來(lái)捕捉豐富的環(huán)境信息,并從這些原始圖像中提取高級(jí)語(yǔ)義信息實(shí)現(xiàn)基于視覺的感知,被抓取的信息通常包括目標(biāo)對(duì)象的位置和方向.機(jī)器人整理鞋子的任務(wù)是讓機(jī)器人識(shí)別定位鞋子及鞋子朝向,然后找到一個(gè)合適的抓取位姿,再執(zhí)行路徑規(guī)劃,完成相應(yīng)的物理抓?。狙芯炕谏疃葘W(xué)習(xí)方法,利用實(shí)例分割網(wǎng)絡(luò)訓(xùn)練鞋子檢測(cè)模型得到圖片中鞋子的掩碼信息.根據(jù)設(shè)計(jì)的鞋子朝向識(shí)別算法和深度相機(jī)中的點(diǎn)云信息估計(jì)機(jī)器人的抓取位姿,鞋子的朝向識(shí)別保證了鞋子能正向擺放.通過(guò)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net?work,CNN)提取鞋子特征,建立鞋子的特征數(shù)據(jù)庫(kù),并利用余弦相似度設(shè)計(jì)鞋子的匹配算法完成同一雙鞋子的匹配.最后將其部署到真實(shí)的機(jī)器人上,完成真機(jī)的鞋子整理任務(wù).
1 目標(biāo)檢測(cè)和位姿估計(jì)相關(guān)工作
傳統(tǒng)的目標(biāo)檢測(cè)算法一般分為3部分:①采用滑動(dòng)窗口方法或圖像分割技術(shù)生成大量的候選區(qū)域;②對(duì)候選區(qū)域進(jìn)行圖像特征提取(如HOG[1], SIFT[2]和HAAR[3]等),提取結(jié)果輸入到分類器(如ADABOOST[4]和RANDOM FOREST[5]等)中,輸出候選區(qū)域的類別;③合并候選區(qū)域,實(shí)現(xiàn)物體的檢測(cè).傳統(tǒng)的目標(biāo)檢測(cè)算法主要依賴于模板匹配,利用人工設(shè)計(jì)的描述符[2,6-7]解決單一目標(biāo)檢測(cè)問(wèn)題.但此類算法存在兩個(gè)缺陷:一是基于滑動(dòng)窗口的區(qū)域選擇策略針對(duì)性不強(qiáng),復(fù)雜度和冗余都比較高;另一個(gè)是手工設(shè)計(jì)的特征有局限性,不能用于多目標(biāo)檢測(cè),令檢測(cè)結(jié)果與實(shí)際需求相差較大.
隨著深度學(xué)習(xí)的不斷進(jìn)步,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的使用越來(lái)越廣泛,也為目標(biāo)檢測(cè)提供了新的研究方向.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可分為基于回歸的目標(biāo)檢測(cè)算法(即單階段目標(biāo)檢測(cè)算法)和基于區(qū)域建議的目標(biāo)檢測(cè)算法(即兩階段目標(biāo)檢測(cè)算法).單階段目標(biāo)檢測(cè)算法不需要區(qū)域建議階段,而是直接提取特征,只通過(guò)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)得到物體的類別概率和位置坐標(biāo)值,將檢測(cè)簡(jiǎn)化成回歸問(wèn)題.基于回歸的目標(biāo)檢測(cè)算法摒棄了候選區(qū)域的思想,不使用區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN),直接在一個(gè)網(wǎng)絡(luò)中進(jìn)行回歸和分類,如YOLO[9]和SSD[10].此類算法因網(wǎng)絡(luò)的減少避免了一些重復(fù)計(jì)算,速度得到了提升.
基于區(qū)域建議的目標(biāo)檢測(cè)算法實(shí)現(xiàn)分為兩個(gè)階段:①輸入圖像做處理生成候選區(qū)域;②對(duì)候選區(qū)域進(jìn)行分類和位置回歸并最終完成檢測(cè). GIRSHICK等提出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region CNN, R-CNN)[11]和fast R-CNN[12]目標(biāo)檢測(cè)網(wǎng)絡(luò)模型. REN等[13]提出的faster R-CNN網(wǎng)絡(luò)模型,將特征提取、預(yù)測(cè)、包圍盒回歸和分類整合在一個(gè)網(wǎng)絡(luò)中,極大提升了檢測(cè)速度.HE等[14]提出的mask R-CNN網(wǎng)絡(luò)模型,則是在特征提取方面采用faster R-CNN網(wǎng)絡(luò)模型的架構(gòu),再額外添加掩碼預(yù)測(cè)分支,使實(shí)例分割在準(zhǔn)確率及靈活性上都取得很大進(jìn)步.
隨著機(jī)器人自主能力的發(fā)展,智能機(jī)器人的應(yīng)用越來(lái)越多樣化[15].抓取是機(jī)器人的基礎(chǔ)操作任務(wù)之一,抓取位姿檢測(cè)是指識(shí)別給定圖像中物體的抓握點(diǎn)或抓握姿態(tài)[16],抓取所需基本信息則是抓取器在相機(jī)坐標(biāo)系中的6維(抓取器的3維空間位置和3維旋轉(zhuǎn)角度)抓取位姿.在基于視覺的機(jī)器人抓取中,根據(jù)抓取方式的不同將抓取位姿分為2維平面抓取和3維空間抓取.
針對(duì)抓取問(wèn)題,SAXENA等[16]提出不需要構(gòu)建物體三維模型,直接根據(jù)圖像預(yù)測(cè)抓取點(diǎn)的三維位置的算法,但算法定義的抓取點(diǎn)只含抓取的位置信息,無(wú)角度信息.JIANG等[17]利用圖像中的定向矩形表示抓取位置和角度,但算法耗時(shí)較長(zhǎng).LENZ等[18]提出具有兩個(gè)深度網(wǎng)絡(luò)的兩步級(jí)聯(lián)系統(tǒng),可實(shí)現(xiàn)對(duì)大量候選抓取位姿快速且可靠的評(píng)估,有效減少了不太可能的抓取位姿.REDMON等[19]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確、實(shí)時(shí)的機(jī)器人抓取檢測(cè)方法,通過(guò)對(duì)可抓取的邊界框執(zhí)行單階段回歸,實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的抓取檢測(cè).本研究通過(guò)結(jié)合鞋子方向和鞋口檢測(cè),實(shí)現(xiàn)快速且高效地檢測(cè)抓取位姿.
2 鞋類檢測(cè)和方向識(shí)別
本研究使用的鞋類圖像數(shù)據(jù)源自兩部分:①網(wǎng)絡(luò)爬取和從鞋類數(shù)據(jù)集中抽?。虎诓捎肒inect2深度相機(jī)采集的真實(shí)環(huán)境下的鞋和鞋架圖像包括原始圖像數(shù)據(jù)200張,以及通過(guò)數(shù)據(jù)增強(qiáng)制作包含原始圖像的1 000張鞋類圖像,這1 000張圖像中900張為訓(xùn)練集(400張?jiān)醋跃W(wǎng)絡(luò),500張?jiān)醋哉鎸?shí)環(huán)境),100張為測(cè)試集(網(wǎng)絡(luò)圖像和真實(shí)環(huán)境的圖像各50張).
采用Labelme軟件對(duì)圖像進(jìn)行標(biāo)注,使用不規(guī)則多邊形標(biāo)記鞋、鞋口和鞋架的基本輪廓,結(jié)果如圖1.
圖1 采用Labelme軟件對(duì)鞋和鞋架圖像進(jìn)行數(shù)據(jù)標(biāo)注(a)原圖;(b)標(biāo)注結(jié)果Fig. 1 Use Labelme to annotate shoes and shoes rack images. (a) Original images, (b) annotate images.
為提高模型泛化能力,對(duì)原始圖像分別采用隨機(jī)旋轉(zhuǎn)一定角度、水平翻轉(zhuǎn)、添加高斯噪聲和顏色抖動(dòng)的方式進(jìn)行數(shù)據(jù)增強(qiáng),如圖2.
圖2 數(shù)據(jù)增強(qiáng)(a)原圖;(b)旋轉(zhuǎn);(c)翻轉(zhuǎn);(d)顏色抖動(dòng);(e)噪聲Fig. 2 Data augmentation. (a) Original image, (b) rotating, (c) flip, (d) color dithering, (e) noise.
圖像分割目的是將物體識(shí)別問(wèn)題轉(zhuǎn)化為圖像分類問(wèn)題.現(xiàn)階段的圖像分割方法思路有兩種:一種是使用不同尺寸的滑動(dòng)窗口遍歷整張圖像,全面分析圖像內(nèi)容,缺點(diǎn)是冗余度高且速度慢;另一種是先將原始圖像分割成不重合的小塊,再通過(guò)CNN獲得特征圖,特征圖的每個(gè)元素對(duì)應(yīng)原始圖像的一個(gè)小塊,最后利用該元素預(yù)測(cè)那些中心點(diǎn)在小塊內(nèi)的目標(biāo),該方法運(yùn)算量少但準(zhǔn)確率會(huì)下降.實(shí)例分割網(wǎng)絡(luò)mask R-CNN[15]是當(dāng)前工程界首選的檢測(cè)算法之一,它借鑒特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[20]的思想,輸出3個(gè)不同尺度的特征圖,實(shí)現(xiàn)了多尺度的目標(biāo)檢測(cè),具有結(jié)構(gòu)清晰、實(shí)時(shí)性好和準(zhǔn)確率高的特點(diǎn).
本研究將機(jī)器人相機(jī)視角下在同一張圖片中捕捉到的鞋和鞋架信息存儲(chǔ)為RGB圖像,再采用mask R-CNN網(wǎng)絡(luò)模型檢測(cè)圖像中需整理的鞋子和擬放置的鞋架.
檢測(cè)模塊包含鞋子檢測(cè)和鞋架檢測(cè)兩部分.先利用mask R-CNN網(wǎng)絡(luò)模型在數(shù)據(jù)增強(qiáng)后的鞋子和鞋架數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)識(shí)別模型,再將場(chǎng)景圖片輸入到訓(xùn)練好的實(shí)例分割網(wǎng)絡(luò)模型中進(jìn)行物體檢測(cè),如圖3.Mask R-CNN網(wǎng)絡(luò)模型不但能準(zhǔn)確識(shí)別出圖像中被檢測(cè)物體的類別,還可用不同顏色的掩碼和矩形框標(biāo)記出被檢測(cè)物體的區(qū)域、輪廓和位置.
圖3 Mask R-CNN檢測(cè)過(guò)程Fig. 3 Mask R-CNN detection process.
考慮到鞋是長(zhǎng)條形的,本研究采用最小外接矩形(minimum enclosing rectangle,MER)方法替代直邊界矩形框方法,獲得更貼合鞋子的形狀特點(diǎn)的檢測(cè)框,同時(shí)還可獲得鞋子的傾斜角度.圖4給出了一個(gè)矩形檢測(cè)框識(shí)別結(jié)果的示例.其中,白色區(qū)域是圖像中部分像素點(diǎn)的集合.最小外接矩形是指給出一個(gè)凸多邊形的頂點(diǎn),求出外接該多邊形且面積最小的矩形.通過(guò)計(jì)算可獲得矩形框中心點(diǎn)像素的坐標(biāo)( x,y )和相對(duì)水平線的旋轉(zhuǎn)角度θ.
圖4 矩形檢測(cè)框識(shí)別結(jié)果(a)原圖;(b)直邊界矩形;(c)最小外接矩形Fig. 4 Rectangular detection frame. (a) Original image, (b) straight bounding rectangle, (c) minimum enclosing rectangle.
圖5(b)是采用mask R-CNN進(jìn)行檢測(cè)識(shí)別后的鞋子圖像,不同的顏色區(qū)域表示實(shí)例分割之后的掩碼區(qū)域.從實(shí)例分割的結(jié)果中可提取出鞋子部分像素的掩碼點(diǎn)集信息,進(jìn)而計(jì)算出鞋子的最小外接矩形框,如圖5(c).其中,shoe和mouth分別表示目標(biāo)分類為鞋子或鞋口;數(shù)值代表對(duì)該檢測(cè)分類的確定程度,其值分布在[ 0,1]內(nèi),0代表十分不可信, 1代表十分可信.
圖5 鞋子檢測(cè)結(jié)果(a)原圖;(b)直邊界矩形;(c)最小外接矩形Fig. 5 Shoes detection. (a) Original image, (b) straight bounding rectangle, (c) minimum enclosing rectangle.
采用MER方法雖然得到了比較貼合鞋子形狀特點(diǎn),且與鞋子方向信息關(guān)聯(lián)的旋轉(zhuǎn)θ角度的矩形框,但仍未解決鞋子朝向識(shí)別的問(wèn)題.為此,本研究在標(biāo)記鞋子訓(xùn)練數(shù)據(jù)的同時(shí),對(duì)每只鞋子的鞋口進(jìn)行標(biāo)記.已訓(xùn)練的網(wǎng)絡(luò)模型檢測(cè)出鞋子和鞋口的掩碼信息后,利用最小外接矩形框可分別計(jì)得鞋子和鞋口的最小外接矩形框的中心點(diǎn)(p1和p2)的坐標(biāo)和旋轉(zhuǎn)角度,如圖6.大多數(shù)情況下,p2指向p1的方向即為鞋子朝向.但對(duì)于含有多只鞋子的圖片,僅采用mask R-CNN進(jìn)行檢測(cè)并不能準(zhǔn)確判斷鞋口和鞋子的對(duì)應(yīng)關(guān)系,因此還要利用OpenCV計(jì)算p2是否處于某一只鞋子的最小外接矩形區(qū)域內(nèi),以此來(lái)判斷鞋口和鞋子的對(duì)應(yīng)關(guān)系.
圖6 鞋子朝向識(shí)別(a)檢測(cè)結(jié)果;(b)朝向識(shí)別結(jié)果Fig. 6 Shoes orientation recognition. (a) Detection result, (b) orientation recognition result.
3 位姿估計(jì)
位姿估計(jì)主要分為抓取位姿估計(jì)和目標(biāo)位姿(放置位姿)估計(jì).前者定義抓取鞋子的6維抓取姿態(tài),后者定義抓取后的6維放置姿態(tài).鞋子的3維空間位置使用深度相機(jī)的點(diǎn)云信息獲?。ㄟ^(guò)鞋子朝向識(shí)別算法識(shí)別出鞋子朝向并幫助確定抓取的旋轉(zhuǎn)角度.同樣,利用深度相機(jī)的點(diǎn)云信息獲取鞋架放置點(diǎn)的3維空間位置.通過(guò)識(shí)別鞋架上木板的旋轉(zhuǎn)角確定抓手的旋轉(zhuǎn)角.
鞋子整理問(wèn)題可以定義為2維平面內(nèi)的抓取問(wèn)題,適用場(chǎng)景通常是將物體水平放置在平面上,抓取器只能從豎直方向上抓取物體.2維平面內(nèi)的抓取位姿估計(jì)需獲取物體的位置信息,結(jié)合抓手的旋轉(zhuǎn)角度,形成一個(gè)可靠的抓取位姿,如圖7.
圖7 二維場(chǎng)景下的位姿估計(jì)Fig. 7 Pose estimation in 2D scene.
定義鞋口的右邊緣位置是機(jī)器人的抓取位置,如圖8所示較短藍(lán)色箭頭終點(diǎn)的位置.根據(jù)識(shí)別的鞋子朝向結(jié)果確定抓手的旋轉(zhuǎn)角度,從而得到可靠的抓取位姿.
圖8 鞋子抓取位姿確定Fig. 8 Grasp pose of the shoes.
擺放鞋子的目標(biāo)位姿包括鞋架上放置點(diǎn)的3維空間位置和抓手放置時(shí)的旋轉(zhuǎn)角度.3維空間位置由模型鞋架檢測(cè)結(jié)果和深度相機(jī)Kinect2的點(diǎn)云信息相結(jié)合獲?。D(zhuǎn)角度則根據(jù)鞋架的擺放方向確定抓手的放置旋轉(zhuǎn)角度,如圖9.
圖9 鞋子放置位姿Fig. 9 Place pose on the shoe rack.
同樣利用MER方法計(jì)算出鞋架的中心位置以及矩形框的寬度和長(zhǎng)度,由此確定鞋架板的邊緣位置,將其定義為第1個(gè)擺放位置.機(jī)器人每擺放1只鞋子,其擺放位置是根據(jù)上一個(gè)擺放位置在鞋架板上沿著藍(lán)色箭頭方向,移動(dòng)一段根據(jù)鞋子大致寬度而設(shè)的距離,并且移動(dòng)的總距離不能超過(guò)鞋架板的長(zhǎng)度,如圖 10.
圖 10 精確的放置位置(a)鞋架中心;(b)首個(gè)放置點(diǎn);(c)其余放置點(diǎn)Fig. 10 Precise placement. (a) Rack center, (b) first placement, (c) other placement.
4 鞋子匹配算法
根據(jù)鞋子整理任務(wù)中把同一雙鞋子整理到一起的需求,本研究設(shè)計(jì)了鞋子匹配算法.利用目標(biāo)檢測(cè)結(jié)果對(duì)場(chǎng)景圖片中的鞋子做裁剪旋轉(zhuǎn)并保存成統(tǒng)一的格式,再使用預(yù)訓(xùn)練的VGG16卷積神經(jīng)網(wǎng)絡(luò)對(duì)鞋子進(jìn)行特征提取并建立鞋子的特征數(shù)據(jù)庫(kù),最后通過(guò)計(jì)算鞋子特征向量之間的余弦相似度辨別兩只鞋子的匹配度,完成鞋子的匹配.
在鞋子匹配前,需獲取同一圖像中每只鞋子的圖像.在多鞋子圖像中識(shí)別單只鞋子的方法主要有兩種.方法1保留鞋子的原始位置,根據(jù)掩碼檢測(cè)結(jié)果只保留單只鞋子的像素部分,其余部分用黑色背景填充,如圖 11(a).利用此種方法獲取的單只鞋子圖像進(jìn)行匹配,鞋子的擺放位置和朝向會(huì)對(duì)匹配結(jié)果產(chǎn)生較大影響.方法2先獲取鞋子朝向的角度,將鞋子統(tǒng)一旋轉(zhuǎn)成豎直向上方向,再根據(jù)矩形框?qū)π訄D像進(jìn)行裁剪.最終圖像中所有鞋子朝向一致,且單只鞋子的圖像只保留了鞋子部分的像素,減少了干擾匹配相似度計(jì)算的無(wú)用信息,提高了匹配的準(zhǔn)確率.本研究使用mask R-CNN分割網(wǎng)絡(luò)和鞋子朝向識(shí)別算法識(shí)別出鞋子的朝向和比較貼合鞋子形狀特點(diǎn)的矩形框,同時(shí)根據(jù)鞋子的朝向獲得相應(yīng)的旋轉(zhuǎn)角度,將原圖中的鞋子進(jìn)行裁剪和旋轉(zhuǎn),全部處理成豎直向上形式,如圖 11(b).
圖 11 多鞋子圖像中單只鞋子的分離識(shí)別結(jié)果(a)保留單只鞋子原始位置分離方式;(b)統(tǒng)一單只鞋子方向的分離方式Fig. 11 The separation recognition result of single shoe in multi-shoes image. (a) Keep the original position of single shoe method, (b) unify the orientation of single shoe method.
首先利用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)模型提取圖像中每只鞋子的特征,建立包含所有鞋子特征的數(shù)據(jù)庫(kù),然后利用網(wǎng)絡(luò)提取的特征計(jì)算單只鞋子圖像之間的余弦相似度,最終實(shí)現(xiàn)鞋子匹配.一雙鞋子的匹配流程如圖 12.
圖 12 鞋子的匹配流程Fig. 12 Shoes matching process.
余弦相似度是通過(guò)計(jì)算兩個(gè)向量之間的夾角的余弦值來(lái)評(píng)估他們的相似程度,夾角越小,余弦值越接近1,兩向量的方向越一致,表明向量之間越相似.給定兩個(gè)n維屬性的向量A和B,θ為兩向量之間的夾角,則它們的余弦相似度為其中, Ai和Bi分別為A和B的第i個(gè)分量.cos θ=-1表示兩向量方向相反;cos θ=1表示兩向量方向相同;cos θ=0表示兩向量互相獨(dú)立.cos θ越接近1,表明兩只鞋子提取出的特征越相似,是一對(duì)的可能性越高.
5 真機(jī)實(shí)驗(yàn)和結(jié)果分析
本研究中的模型訓(xùn)練使用2張8 GByte的Quadro M5000顯卡,圖形處理器(graphics processing unit, GPU)每次處理2張圖片,學(xué)習(xí)率為0. 001,迭代次數(shù)為300 epochs.使用1 000張標(biāo)注圖像作為訓(xùn)練集,其中100張作為測(cè)試集.訓(xùn)練模型的損失函數(shù)、邊界框的損失函數(shù)和掩碼的損失函數(shù)皆隨著迭代次數(shù)的增加逐漸收斂.
為量化實(shí)驗(yàn)結(jié)果,采用平均精度(mean average precision,mAP)來(lái)評(píng)定訓(xùn)練模型對(duì)多標(biāo)簽圖像中所有類別進(jìn)行檢測(cè)的效果.表1給出了迭代次數(shù)τ為分別為50、150和300 epochs時(shí),采用Mask R-CNN模型對(duì)100張測(cè)試圖片進(jìn)行分類檢測(cè)后的mAP值、對(duì)12張總共包含78只鞋子的圖片進(jìn)行朝向識(shí)別的準(zhǔn)確率Ao和模型訓(xùn)練耗時(shí)t.表1表明,隨著迭代次數(shù)的增加,mask R-CNN模型對(duì)鞋子的識(shí)別效果和鞋子朝向識(shí)別的準(zhǔn)確率隨之提升,但相對(duì)地訓(xùn)練耗時(shí)會(huì)增加.
表1 Mask R-CNN模型訓(xùn)練迭代次數(shù)對(duì)識(shí)別性能的影響Table 1 Comparison of model detection and orientation recognition performance
圖 13對(duì)比了訓(xùn)練模型τ分別為50、150和300 epochs時(shí)進(jìn)行目標(biāo)檢測(cè)的結(jié)果.從圖 13可見,隨著迭代次數(shù)的增加,模型識(shí)別效果越來(lái)越準(zhǔn)確,掩碼邊緣識(shí)別效果隨之提升.
采用統(tǒng)一單只鞋子方向的圖像處理方式,對(duì)比只采用余弦相似度和加入VGG16特征提取兩種方法的匹配準(zhǔn)確率,結(jié)果如表2.由表2可見,加入VGG16提取特征后進(jìn)行相似度計(jì)算,可明顯提升算法匹配準(zhǔn)確率.
圖 13 不同訓(xùn)練次數(shù)對(duì)鞋子實(shí)例分割的結(jié)果(a)原圖;(b)檢測(cè)結(jié)果;(c)Ground truth;(d)掩碼結(jié)果(上排為τ=50 epochs,中排為τ=150 epochs,下排為τ=300 epochs) Fig. 13 Comparison of shoes instance segmentation results. (a) Original images, (b) detection images, (c) Ground truth images, (d) mask images. (The images from top to bottom are τ=50,150,300 epochs respectively.)
表2 只采用余弦相似度和加入VGG16特征提取兩種方法匹配準(zhǔn)確率對(duì)比Table 2 Comparison of shoe matching methods of using cosine similarity and VGG16+cosine similarity, respectively.
實(shí)例分割網(wǎng)絡(luò)的作用是檢測(cè)圖像中的可抓取物體,因此,本研究利用機(jī)器人操作系統(tǒng)(robot oper?ating system,ROS)中的機(jī)械臂路徑規(guī)劃算法,探尋機(jī)械臂抓取鞋子目標(biāo)的實(shí)際控制途徑.路徑規(guī)劃算法需要提供一個(gè)在機(jī)器人基座坐標(biāo)系下的3維抓取位置,而本研究的檢測(cè)網(wǎng)絡(luò)只能識(shí)別2維圖像上的抓取位置,因此要進(jìn)行相機(jī)標(biāo)定,將2維圖像的抓取位置轉(zhuǎn)換到相機(jī)坐標(biāo)系空間,再進(jìn)行機(jī)械臂的手眼標(biāo)定將相機(jī)坐標(biāo)系轉(zhuǎn)換到機(jī)器人基座坐標(biāo)系空間,最終得到待抓取物體在機(jī)器人基座坐標(biāo)系中的空間位置.圖 14是機(jī)器人在鞋子整理過(guò)程中的部分視頻幀.每一行幀圖片顯示的是完成1只鞋子的整理任務(wù),第1列幀圖片是機(jī)器人根據(jù)抓取位姿實(shí)現(xiàn)抓取鞋口的右邊緣,第2列幀圖片是根據(jù)識(shí)別的鞋子朝向?qū)⑿訑[正,第3列幀圖片是機(jī)器人根據(jù)放置位姿將鞋子擺放到鞋架上.機(jī)器人每完成一只鞋子的整理任務(wù)后,根據(jù)鞋子匹配算法對(duì)未整理鞋子進(jìn)行匹配和整理,從而完成一雙鞋子的整理任務(wù).如此反復(fù),最終實(shí)現(xiàn)對(duì)所有鞋子的整理.
圖 14 機(jī)器人整理鞋子真機(jī)實(shí)驗(yàn)的部分的視頻幀(左下角為同步的點(diǎn)云) Fig. 14 Part of video frames of real robot experiment of shoes arrangement. (The bottom left corner is the synchronized point cloud.)
結(jié) 語(yǔ)
設(shè)計(jì)了一套基于3維視覺的機(jī)器人自主理鞋系統(tǒng).采用mask R-CNN網(wǎng)絡(luò)模型在自制數(shù)據(jù)集上訓(xùn)練檢測(cè)模型,實(shí)現(xiàn)鞋子和鞋架檢測(cè)和像素級(jí)別的實(shí)例分割.利用實(shí)例分割得到的掩碼點(diǎn)集合和最小外接矩形框方法設(shè)計(jì)鞋子朝向識(shí)別算法,并由此估計(jì)出鞋子的抓取位姿和放置位姿.利用目標(biāo)檢測(cè)結(jié)果對(duì)場(chǎng)景圖片中的鞋子做裁剪,旋轉(zhuǎn)后保存成統(tǒng)一的格式,再使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)VGG16對(duì)鞋子特征進(jìn)行提取并建立鞋子的特征數(shù)據(jù)庫(kù),通過(guò)計(jì)算兩只鞋子特征之間的余弦相似度實(shí)現(xiàn)鞋子匹配.建立了機(jī)器人的視覺系統(tǒng),將深度相機(jī)Kinect2作為機(jī)器人的視覺感知器,采用相機(jī)標(biāo)定獲取相機(jī)內(nèi)外參數(shù),通過(guò)手眼標(biāo)定完成相機(jī)坐標(biāo)系和機(jī)器人基坐標(biāo)系的統(tǒng)一,從而獲得相機(jī)在機(jī)器人基坐標(biāo)系下的位姿.基于ROS完成真實(shí)機(jī)械臂的控制程序設(shè)計(jì)工作,利用深度相機(jī)的點(diǎn)云信息完成目標(biāo)定位的功能,實(shí)現(xiàn)真機(jī)測(cè)試.
未來(lái)將繼續(xù)構(gòu)建更大的鞋類數(shù)據(jù)集,提高目標(biāo)檢測(cè)的準(zhǔn)確率和魯棒性,為匹配和定位提供更加穩(wěn)定強(qiáng)健的基礎(chǔ)保障.在鞋子檢測(cè)和匹配中,由于鞋子左右的特征區(qū)分度較低,本研究未能實(shí)現(xiàn)鞋子左右的區(qū)分,所以未來(lái)如何提高鞋子左右特征的區(qū)分度,準(zhǔn)確實(shí)現(xiàn)鞋子左右的檢測(cè)是一個(gè)可持續(xù)探索的研究方向.
欄目分類
- 1網(wǎng)絡(luò)直播現(xiàn)狀及前景探究
- 2淺析電影《我的父親母親》視聽語(yǔ)言特色——影視文學(xué)
- 3中美貿(mào)易戰(zhàn)的發(fā)展和應(yīng)對(duì)
- 4論微信傳播的特點(diǎn)
- 5企業(yè)如何進(jìn)行危機(jī)公關(guān)——以三星Galaxy note7爆炸門事件為例
- 6淺析網(wǎng)絡(luò)暴力的社會(huì)危害及防治對(duì)策
- 7聚酮類化合物研究進(jìn)展
- 8淺析《極限挑戰(zhàn)》的節(jié)目特色及啟示
- 9《楚門的世界》的多重隱喻解讀
- 10體育產(chǎn)業(yè)發(fā)展中存在的問(wèn)題及建議
- 游戲教學(xué)法在網(wǎng)球教學(xué)中的應(yīng)用
- 心理素質(zhì)在網(wǎng)球比賽中的作用
- 綠色科技視角下企業(yè)環(huán)境績(jī)效指標(biāo)體系構(gòu)建
- 節(jié)約型基礎(chǔ)上的綠色財(cái)政稅收政策研究
- 財(cái)政投資項(xiàng)目竣工決算存在的問(wèn)題及對(duì)策
- 基于精細(xì)化管理視域探析公立醫(yī)院成本管控優(yōu)化策略
- 農(nóng)村信用社在金融市場(chǎng)中的營(yíng)銷技巧探究
- 實(shí)現(xiàn)我國(guó)糧食增產(chǎn)增收的財(cái)稅政策分析
- 離子色譜法同時(shí)測(cè)定卷煙紙中幾種金屬離子的含量
- IC厭氧反應(yīng)器處理造紙廢水效率的時(shí)間分布特征研究
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- 重磅!CSSCI來(lái)源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?