加入特征空間信息的視覺SLAM閉環(huán)檢測改進方法
SLAM(同步定位與地圖構(gòu)建)指自主移動機器人根據(jù)環(huán)境構(gòu)建地圖并確定自身姿態(tài)和位置。相機能獲得廣泛優(yōu)質(zhì)的信息(分辨率足夠高、圖像顏色豐富等),且輕便價格低,基于相機的視覺SLAM方法成為近十年來的研究熱點。閉環(huán)檢測是視覺SLAM的一項重要過程,指判斷自主移動機器人是否回到曾經(jīng)到達過的地點,它是減少機器人位姿累積誤差和地圖不確定性的關(guān)鍵步驟。閉環(huán)檢測有三種方式:map to map、image to image、map to image,實際常采用image to image方式,即序列圖像匹配方法。
詞袋(bag of words,以下使用簡稱BoW)作為主流的圖像相似性匹配方法,被廣泛利用和改進優(yōu)化。Josef Sivi等人使用BoW,結(jié)合文本檢索中的TF-IDF(term frequency–inverse document frequency)模式分配視覺單詞權(quán)重,并加入停止詞,識別視頻中圖片里的相似物體,提高了特征查詢的速度。David Nister等人提出將BoW的視覺單詞作為構(gòu)建樹結(jié)構(gòu)的節(jié)點,假設(shè)節(jié)點個數(shù)為n,它的查找時間復(fù)雜度為O(log n),和時間復(fù)雜度為O(n2)的蠻力搜索方法相比,大大提高了特征搜索的效率。Dorian Galvez-López等人使用二進制描述子BRIEF(Binary Robust Independent Elementary Features,二進制魯棒的獨立基本特征)替換常用的SIFT(Distinctive Image Features from Scale-Invariant Keypoints,尺度不變關(guān)鍵點的獨特圖像特征)或SURF(Speeded-Up Robust Features,加速穩(wěn)健特征),提高了特征匹配速度并節(jié)省特征占用空間。但上述方法均忽略特征空間聯(lián)系,存在較大的投影量化誤差,造成感知歧義,即相同單詞投影到不同區(qū)域,不同單詞卻投影到相同區(qū)域,邊緣單詞發(fā)生此種情況的概率更大。
為提升圖像匹配的準確率,開展了對BoW方法視覺單詞添加空間信息的研究。Nishant Kejriwal等人用128維的SURF描述子表示圖像特征,在使用視覺字典樹結(jié)構(gòu)的BoW模型基礎(chǔ)上加入不同特征點同時出現(xiàn)和空間鄰近關(guān)系的信息,然后用貝葉斯概率方法計算閉環(huán)。該方法應(yīng)用在閉環(huán)檢測中,取得了比傳統(tǒng)BoW方法更高的準確率,但同時增加了較大時間復(fù)雜度。Svetlana Lazebnik等人提出將圖像分為金字塔多個層級,每層劃分不同大小的區(qū)域,分別統(tǒng)計并量化各層區(qū)域特征,然后通過特征向量相似度來確定匹配圖像,提升了圖像匹配準確率。李博等人提出帶TF-IDF權(quán)重的視覺字典樹和改進的金字塔得分匹配模型,從視覺字典樹的下層往上層計算節(jié)點相似性增量匹配核函數(shù),通過結(jié)合不同層次單詞關(guān)聯(lián)性,降低投影量化歧義性。該方法改善BoW的視覺單詞本受單詞數(shù)目限制導(dǎo)致性能不佳的不足,提升了檢索效率并減小匹配誤差。因圖像拍攝視角差異等原因,上述針對視覺單詞空間關(guān)系的改進方法魯棒性不高,同時會明顯增加比較特征空間關(guān)系的時間開銷。
本文將用于圖像相似性匹配的BoW方法作為改進對象,加入均勻劃分4個區(qū)域的特征空間信息,通過比較全排列特征空間向量,提高閉環(huán)檢測的準確率,且保證較高效率。
1 系統(tǒng)總體結(jié)構(gòu)
本文對視覺SLAM的閉環(huán)檢測處理,主要分為三個過程:提取圖像特征點、創(chuàng)建BoW模型、使用全排列特征空間信息檢測確認閉環(huán)。具體流程為:首先利用ORB方法提取圖像特征點,以此創(chuàng)建BoW,通過視覺字典樹結(jié)構(gòu)表示BoW,然后計算比較圖像庫圖像(機器人曾走過區(qū)域獲取到的圖像集合)和查詢圖像間向量的相似度。將相似度較大(即相似距離較?。┑膱D像庫圖像作為候選圖像,計算比較它們和查詢圖像特征空間全排列向量的距離,選取距離最小值對應(yīng)的圖像對,作為閉環(huán)。本文所設(shè)計的閉環(huán)檢測過程如圖1所示。
2 基于BoW模型的閉環(huán)檢測方法
2.1 ORB特征提取方法
特征提取是物體識別、圖像檢索等常見應(yīng)用的前提步驟,為BoW的創(chuàng)建提供特征點。SIFT特征具有平移、旋轉(zhuǎn)、縮放等不變性,是較魯棒的方法。然而該特征提取方法效率較低,不能較好滿足SLAM實時性要求。折中于速率和穩(wěn)定性的ORB方法,是SLAM特征提取的較好選擇。ORB分為特征點檢測FAST(Features from Accelerated Segment Test,加速分段測試的特征)方法和改進的特征點描述BRIEF方法兩步處理過程。如圖2,F(xiàn)AST方法比較被檢測像素點和以其為圓心的圓上16個像素點的灰度差值,如果有至少連續(xù)12個像素點與中心點的灰度差值同時小于閾值或者同時大于閾值,則被檢測的像素點為特征點,否則不是特征點。該方法簡單可行,效率較高。
BRIEF的基本思想是將特征點周圍滿足某一特定分布規(guī)律像素點對的灰度值一一比較,大于關(guān)系用1表示,小于關(guān)系用0表示,將比較結(jié)果有序組成一串由0、1表示的向量,即得到特征描述子,它由二進制數(shù)字組成,節(jié)省了特征存儲空間,使用位異或運算符可提升特征間的比較速度。在ORB方法中,以圖像塊(假設(shè)用A表示)幾何中心和形心的連線作為特征點方向,以此保證BRIEF描述子具有旋轉(zhuǎn)不變性。
2.2 創(chuàng)建BoW模型
借鑒于文本檢索中單詞反映文本重要信息的作用,將表示圖像局部信息的特征點聚類成無序視覺單詞,將它們組成詞袋,用來表征圖像。對特征點進行k-means聚類得到聚類中心點(視覺單詞)后,對視覺單詞分配TF-IDF權(quán)重。
其中,nid表示第i個視覺單詞在圖像d中出現(xiàn)的頻數(shù),nd表示圖像d的視覺單詞總數(shù),N表示所有圖像總數(shù),Ni表示第i個視覺單詞在所有圖像中出現(xiàn)的頻數(shù)。權(quán)重值被加入到特征索引結(jié)構(gòu)中,將圖像的各個特征點量化到與其距離最近的視覺單詞中,統(tǒng)計各視覺單詞的得分,即特征量化到各視覺單詞的權(quán)重值之和,將各視覺單詞得分組成向量,用來表示該圖像。
2.3 基于BoW創(chuàng)建視覺字典樹
對于BoW方法,需要使用數(shù)量巨大的視覺單詞,才能保證較高的圖像匹配準確度,此時查找效率比較低。為了提高查找效率,采用樹結(jié)構(gòu)的節(jié)點來組織不同聚類層次的視覺單詞,葉子節(jié)點存儲圖像特征點,查找匹配特征點的過程為從根節(jié)點往下搜索到葉子節(jié)點。然而,使用視覺字典樹方法同樣會帶來較大的感知歧義問題。為了改進BoW模型局部特征匹配造成較大量化誤差的不足,提出對圖像比較全排列特征空間向量信息的方法。
3 分塊特征空間向量全排列比較方法
3.1 均勻劃分4塊區(qū)域的特征空間信息
因視角差異等因素影響,包含相似內(nèi)容的不同圖像,它們的分塊區(qū)域不一定按序一一對應(yīng),這種情況導(dǎo)致基于金字塔空間的圖像匹配方法準確性不高[12]。將圖像分成均勻的4塊區(qū)域,從左到右、從上到下分別編號為1,2,3,4。如圖3所示,不同符號表示不同的視覺單詞,(a)為某時刻相機獲取圖像,(b)為移動機器人再次到達(a)所到過地點時相機獲取的圖像,因這兩個不同時刻相機拍攝角度不一致,(a)中2和4區(qū)域分別和(b)中的1和3區(qū)域有較高對應(yīng)度。對于這種情況,將圖像的各區(qū)域兩兩比較,才能得到更真實的匹配結(jié)果。采用均勻劃分4塊區(qū)域的特征空間全排列向量比較方法,既能利用特征空間關(guān)聯(lián)信息彌補BoW匹配方法易造成感知歧義的不足,又能改進金字塔匹配方法導(dǎo)致效率較低和魯棒性不高的問題。
在對圖像特征點聚類構(gòu)成視覺單詞后,記錄視覺單詞的位置。統(tǒng)計各區(qū)域中特征量化到各個視覺單詞的得分:Sijk,它表示圖像i的特征量化到第j個區(qū)域的第k個視覺單詞得分。假設(shè)視覺單詞數(shù)目為n,圖像i的每個區(qū)域特征空間向量為,4個區(qū)域的向量組合成種特征空間全排列向量:,其中且。該向量就是查詢圖像的特征空間信息,用于與圖像庫圖像中劃分4個區(qū)域按序排列的特征空間信息比較相似性,確定最優(yōu)閉環(huán)。
3.2 計算閉環(huán)
閉環(huán)檢測過程中,先判斷前一時刻圖像和當前圖像的相似值是否小于設(shè)定閾值,決定是否進一步處理當前圖像。如果需要,使用BoW方法初步篩選出與查詢圖像的向量距離小于閾值的候選閉環(huán)圖像。向量間距離值計算如下。假設(shè)圖像庫圖像x的向量表示為Vx,查詢圖像y的向量表示為Vy,歸一化兩幅圖像向量并計算L1-范數(shù)距離的公式為:
根據(jù)距離確定圖像相似度高低,距離越小,代表兩張圖像越相似,反之圖像越不相似。然后將查詢圖像的全排列向量分別與候選閉環(huán)圖像特征空間向量進行相似性比較,使用公式(5)的L1-范數(shù)距離公式計算它們向量間的距離。最相似兩張圖像的距離值為BoW方法和特征空間信息方法計算距離的最小值,即,該值對應(yīng)的候選閉環(huán)圖像為選出的最優(yōu)閉環(huán)。
4 實驗與結(jié)果分析
本實驗所用軟硬件配置如下:電腦CPU為i7處理器,主頻是2.6GHz,內(nèi)存16G,系統(tǒng)為Ubuntu 16.04 LTS,采用C++作為實驗編程語言。本文的實驗對象為New College數(shù)據(jù)集和City Centre數(shù)據(jù)集,它們是SLAM閉環(huán)檢測的標準數(shù)據(jù)集,由牛津大學(xué)移動機器人實驗室對室外大型場景采集而來。這兩個數(shù)據(jù)集帶有真實閉環(huán)信息,可用來檢驗實驗測試效果。
分別使用ORB方法和SURF方法(對SIFT的改進,能加速特征提取)[13],對New College數(shù)據(jù)集不同時刻同一地點構(gòu)成閉環(huán)的兩張圖像0745.jpg和1563.jpg進行特征提取和匹配實驗,用圓圈標記檢測到的特征點。調(diào)整兩種方法的特征檢測閾值,設(shè)定ORB方法的閾值為使它們檢測到數(shù)目接近的特征點,然后比較特征檢測效果,如圖4所示。
圖5是兩種特征提取方法對上述閉環(huán)圖像對的特征匹配效果,匹配點間用線段相連。選擇New College和City Centre數(shù)據(jù)集的各10對閉環(huán)圖像,采用這兩種特征提取方法進行對比實驗,將誤匹配點初步過濾后,結(jié)果列于表1。通過該實驗可知,雖然ORB方法特征檢測的魯棒性不及SURF方法,但它也能較準確地提取圖像特征,且用時明顯遠遠少于SURF方法,因而更好地滿足SLAM對圖像特征提取準確性和效率的要求。
數(shù)據(jù)集 | 10組閉環(huán)圖像 | |||
特征提取方法 | 平均特征點數(shù) | 平均特征提取時間 | 平均特征匹配時間 | |
New College | ORB | 468個 | 10.462 ms | 7.197 ms |
SURF | 220.867 ms | 14.307 ms | ||
City Centre | ORB | 396個
| 10.212 ms | 2.535 ms |
SURF | 180.518 ms | 9.340 ms |
利用基于視覺字典樹結(jié)構(gòu)的BoW方法量化表示圖像后,選出距離小于設(shè)定閾值的候選閉環(huán),因相機平移偏轉(zhuǎn)和噪聲等影響,這些圖像難免會存在視覺混淆現(xiàn)象。單從BoW方法得出的圖像匹配得分大小選出候選閉環(huán),存在較大的局限性,本文采用特征空間信息方法加以改進。分別對New College和City Centre數(shù)據(jù)集的查詢圖像和對應(yīng)候選閉環(huán)圖像,使用BoW方法和劃分4塊區(qū)域特征空間方法計算相似度,統(tǒng)計實驗結(jié)果列于表2。
實驗數(shù)據(jù)集 | 算法 | |||||||
BoW | 特征空間信息 | |||||||
真實閉環(huán)圖像間平均距離值 | 錯誤閉環(huán)圖像間平均距離值 | 閉環(huán)檢測正確率 | 閉環(huán)檢測計算時間/每張圖片 | 真實閉環(huán)圖像間平均距離值 | 錯誤閉環(huán)圖像間平均距離值 | 閉環(huán)檢測正確率 | 閉環(huán)檢測計算 時間/每張圖片 | |
New College | 0.106 | 0.242 | 90.322% | 36.321ms | 0.073 | 0.235 | 95.174% | 36.513ms |
City Centre | 0.158 | 0.302 | 83.957% | 31.650ms | 0.112 | 0.289 | 87.435% | 31.832ms |
表2 BoW和特征空間信息方法比較結(jié)果
針對New College數(shù)據(jù)集的實驗顯示,劃分4塊特征空間方法明顯比BoW方法計算的真實閉環(huán)圖像間平均距離小,小約31.13%;雖然前者計算的錯誤閉環(huán)圖像間平均距離較小,但只小了約2.89%。這說明前者對相似圖像識別度明顯比后者更高,兩者對非相似圖像識別度基本一致。最終前者的閉環(huán)檢測正確率比后者高約5.0%,時間僅增加約0.65%。City Centre數(shù)據(jù)集圖像整體偏暗,檢測到的特征點較少,導(dǎo)致圖像混淆度較高。在此數(shù)據(jù)集實驗中,劃分4塊特征空間方法和BoW相比,前者計算的真實閉環(huán)圖像間平均距離比后者小約29.11%,錯誤閉環(huán)圖像間平均距離只比后者小了約4.30%。同樣說明前者對相似圖像識別度更高,而兩者對非相似圖像識別度基本相似。前者的閉環(huán)檢測正確率比后者高約3.5%,時間僅增加約0.58%。因而,特征空間信息方法優(yōu)于BoW方法。這是因為特征空間信息方法統(tǒng)計了不同區(qū)域的特征信息,相似圖像間的這些特征信息理應(yīng)比較一致,對視角偏轉(zhuǎn)圖像間的匹配,全排列向量比較具有更高魯棒性,而非相似圖像間不具有這樣的特性。特征空間信息方法降低了因視角偏轉(zhuǎn)、噪聲等帶來的感知偏差,提高了閉環(huán)檢測正確率。而僅需查詢圖像全排列特征空間向量與候選圖像特征空間向量比較帶來的較小時間代價。
5 結(jié)論
視覺SLAM閉環(huán)檢測中,使用ORB特征提取方法,能快速且較魯棒地為構(gòu)建BoW提供特征點,通過視覺字典樹結(jié)構(gòu)快速查詢圖像特征。本文通過全排列特征空間向量比較圖像間相似性,和BoW方法相比,提高了圖像匹配的準確率和魯棒性,處理速度符合實時性要求,可較好地保證閉環(huán)檢測的性能。未來將進一步挖掘圖像特征間更有效的空間聯(lián)系信息,或結(jié)合其它減小圖像感知歧義的方法,進一步提高閉環(huán)檢測的準確率。
- 財政稅收對經(jīng)濟高質(zhì)量發(fā)展的保障
- 德育視域下加強中國文化建設(shè)的路徑探析
- 鄉(xiāng)村振興戰(zhàn)略下耕地“非糧化”的法律問題研究
- 五育并舉理念下中職思政教育與工匠精神培育有效融合的實踐路徑
- 中國式現(xiàn)代化視域下的生態(tài)責任研究
- 生態(tài)環(huán)境損害賠償訴訟賠償中的責任認定與舉證難題探析
- 基層社會治理中“小馬拉大車”的制度癥結(jié)和制度正解
- 高校助力鄉(xiāng)村振興的可行性探究
- 新時代背景下大學(xué)生社會實踐助力鄉(xiāng)村振興的優(yōu)化路徑研究
- 傳統(tǒng)村落風貌保護與更新策略研究
- 官方認定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據(jù)?還有哪些機構(gòu)認可黨報?