作者:Brian Dipert,嵌入式視覺聯盟;Yves Legrand,飛思卡爾半導體;Bruce Tannenbaum,MathWorks公司 為了讓機器人更好地與其周圍的事物進行互動,并靈活地移動,機器人必須能夠看到并辨別其周圍的環境。經濟高效且功能強大的視覺處理器(通過深度辨別圖像傳感器進行數據傳輸,并采用極具魯棒性的軟件算法)正在使人們盼望已久的自適應機器人成為現實。 機器人,這一長期出現在科幻世界和航運產品文檔中的事物,被描述為能夠幫助人類從呆板、單調和難以忍受的工作中釋放出來,并利用其高速度及高精度的特點提升工作效果。無論是可完成吸塵、地毯清洗,甚至排水溝的清潔工作的第一代自主消費機器人系統,或是多種類型的生產環境下機器人的使用正不斷增長,都可以說明上述觀點(圖1)。 圖1:為消費者量身定制的自主產品(a)和工業制造系統(b)是眾多可以通過視覺處理功能而得到增強的機器人中的一部分。 然而第一代消費類機器人采用了相對粗糙的方案來定位并感知其周圍環境。這些基本技術包括由紅外線發射器組成的人造壁壘,它可與內置在機器人當中的紅外線傳感器進行協作,從而防止機器人從樓梯上滾下或游蕩到另一個房間。當自主機器人撞到了不可移動的物體時,震動傳感器可通知機器人,讓機器人不再繼續前進。而更先進的繪圖功能設計甚至讓機器人不必再次回到這個特殊的位置。與人類的工作方式相比,機器人的工作不必考慮體力因素、更加快捷,并且更加準確,但機器人成功的前提是讓來料到達固定的方向和位置,因此提升了制造流程的復雜性。來料部件的位置及方向出現任何偏離都將導致裝配的失敗。 人類用眼睛(以及感覺)和大腦對其周圍的世界進行辨識和定位。從理論上講,采用攝像頭組件、視覺處理器和各種軟件算法的機器人系統也應該可以做到。但縱觀歷史,這樣的圖像分析技術通常只有在復雜并且昂貴的系統中才能找到。但數字集成電路在成本、性能和功耗方面的進步,為視覺功能使用在多樣化和高容量的應用上鋪平了道路,其中包括機器人實現的功能越來越多。雖然機器人在功能實現方面仍然面臨著諸多挑戰,但與以往相比,今天已經可以更加輕松、快速、經濟高效地解決這些問題。 軟件技術 開發出可根據視覺適應其環境的機器人系統需要采用電腦視覺算法,該算法可將一個或多個圖像傳感器中的數據轉換成該環境的可執行信息。機器人的兩個常見任務分別是識別外部目標和方向,并決定機器人的位置和方向。許多機器人可與一個或多個特定目標進行互動。對于情境自適應機器人而言,必須能夠檢測到那些在未知地點和方向的目標,并且還要了解到這些目標很可能會移動。 攝像頭每秒產生上百萬像素的數據,從而形成了一個肩負著沉重處理負擔的有效載荷。解決該問題的一種常見方法是檢測這些多像素的特征,如視頻數據每一幀的角、點、邊或線(圖2)。 圖2:完整處理二維或三維機器人視覺傳感器的原始輸出涉及四個主要階段,每個階段都有自己的獨特性并受其處理要求的制約。 這種像素到特征的轉換可使在視覺處理管道的這個特殊階段的數據處理需求降低一千倍或更多;上百萬的像素降低成了上百個特征,機器人就可以高效地對目標進行識別,并確定其空間特征(圖3)。 圖3:視覺處理器可以集成多種類型的內核,以滿足每個處理階段的獨特需求。 目標檢測首先包括采用機器學習或其他算法與多個特征相結合。然后,通過利用這些特征的數據庫(該數據庫根據特定目標在不同角度和方向的大量已采集圖像生成),用戶可以采用分類器算法運行并訓練機器人正確地識別每個新目標。最有名的目標檢測算法之一是Viola-Jones framework,它采用類Haar的特征和大量Adaboost分類器。該算法非常擅長于識別臉部,也可經過訓練來識別其他常見目標。而基于機器學習算法的一大缺點是:他們需要大量的訓練數據集,才能準確地檢測目標。 通過特征來確定目標方位需要一種像RANSAC (隨機抽樣和均測)那樣的基于統計的算法。該算法采用一組特征來模擬一個潛在的目標方向,然后確定多少其他特征適合該模型。具有最大數量匹配特征的模型對應于被正確識別的目標方向。為了檢測移動目標,用戶可以將特征識別與跟蹤算法相結合。一旦一組特征正確地識別了一個目標, KLT(Kanade-Lucas-Tomasi)或卡爾曼濾波等算法將在視頻的幀之間跟蹤這些特征的運動軌跡。無論方向和阻塞如何改變,這些技術都是非常可靠的,因為他們僅需要跟蹤一組最初特征便可成功。 上面所述算法可能對于固定式機器人來說足夠了。但對于移動機器人來說,還需要采用其他算法才能使機器人在其環境中安全地移動。SLAM(同步定位繪圖)是一種可使機器人創建環境地圖并跟蹤其當前位置的算法。這種算法需要繪制三維環境地圖。由于有許多深度感應傳感器選件;因此常見的方法是采用一對被配置成“立體”攝像頭的2D攝像頭,其作用類似于人類視覺系統。 立體攝像頭依靠對極幾何,采用一對2D圖像的投射為每個場景內的每個點提供3D位置。根據前面2D觀點所提到的,特征可用于檢測3D場景中的有效位置。例如,與平整的墻面相比,機器人更容易檢測到桌角的位置。在給定的位置和方向,機器人可以檢測特征,通過比較其內部地圖以確定其位置并改進地圖質量。考慮到目標經常會移動,因此靜態地圖對于試圖適應其環境的機器人來說,用處不大。 處理器的選擇 為了有效地打造出機器人視覺,我們將所需的處理步驟分為若干階段。特別是我們前面所討論的算法,其處理步驟可分為4個階段,根據處理要求,每個階段都具有獨特的特征與限制(參考1)。市場中充斥著各種類型的視覺處理器,并且不同類型的視覺處理器(根據其性能、功耗、成本、功能靈活性和其他因素)可能適合不同的算法處理階段。實際上,視覺處理器芯片可能集成了多個不同類型的處理器內核,從而滿足多個處理階段的獨特需求(圖4)。 圖4:視覺處理器芯片可能集成了多個不同類型的處理器內核,從而滿足多個處理階段的獨特需求 第一個處理階段包含多種可處理各種傳感器數據處理功能的算法,例如: ●調整大小 ●色彩空間轉換 ●圖像旋轉和翻轉 ●去隔行 ●色彩調整和色域映射 ●伽瑪校正, ●對比度增強 在此階段,每一幀內的每個像素都會進行處理,因此每秒的工作量都是巨大的。在立體圖像處理時,兩個圖像平面必須同時進行處理。面向這些操作的其中一個處理選項為專用硬件時鐘,有時又被稱為IPU(圖像處理單元)。最近推出的視覺處理器(包含IPU)可在穩定的幀速率下同時處理兩個圖像,每個圖像的分辨率都高達2048x1536像素(300多萬像素)。 第二個處理階段將進行特征檢測,在這一階段(如前面所討論的),角、邊和其他顯著圖形區域將會被提取。這個處理階段仍在每個像素的基礎上進行,因此非常適合那些高度并行的架構,但這一階段可處理更加復雜的數學函數,如一階和二階導數。DSP、FPGA、GPU、IPU和APU(陣列處理器單元)都是常用處理選項。DSP和FPGA具有高度的靈活性,因此非常適用于那些不成熟和正在發展的應用(和實施這些應用的算法)。與其他方法相比,該靈活性雖然帶來了更高的性能,但也帶來更多的功耗和成本。 在靈活性/專用性比最高的選擇是專用IPU或APU,他們特別適用于視覺處理任務。它每秒可處理數十億的操作,但由于經過應用優化,它并不適合更廣泛的功能。靈活性/專用性較為折衷的是GPU,GPU過去常常出現在電腦中,而現在也嵌入到應用在智能手機、平板電腦和其他大批量應用的應用處理器中。 浮點單元計算(如光流算法中的最小二乘功能)、SURF(用于快速顯著點檢測的快速魯棒特征算法)中的描述符計算和點云處理都非常適用于高度并行的GPU架構。這種算法可運行在SIMD(單指令多數據)矢量處理引擎(如ARM的NEON或功率架構CPU中的AltiVec功能模塊)上。無論如何,包括OpenCL(開放計算機語言)和OpenCV(開源代碼計算機視覺庫)在內的架構和庫,都可簡化并加快軟件開發,還可能包括在多個內核上對一個任務的各個部分進行分配的能力。 在第三個圖像處理階段,系統將根據特征圖對目標進行分類。與之前階段基于像素的處理方法相比,這些目標檢測算法以高度非線性的結構和方式進行數據訪問。然而,仍需采用強大的處理“機制”通過豐富的分類數據庫來評估多種不同的特性。這種需求非常適合單核和多核傳統處理器,如基于ARM和Power架構的RISC設備。這種選擇標準也同樣適用于第四個圖形處理階段,該階段將通過多幀跟蹤檢測目標、實施該環境的模塊,并根據各種環境來評估是否應該實施動作。鑒于視覺處理的數據密集型屬性,當評估處理器時,用戶不僅應評估內核數量和每核速度,還應評估每個處理器的數據處理能力,如外部存儲器總線帶寬。 行業聯盟援助 由于市場上出現了性能日漸強大的處理器、圖像傳感器、存儲器和其他半導體器件,加上極具魯棒性的算法,將計算機視覺功能整合到廣泛的嵌入式系統中變得切實可行。在這里,“嵌入式系統”指的是基于微處理器的所有系統,而不是一臺通用計算機。因此,嵌入式視覺是指在嵌入式系統、移動設備、專用電腦和云中加入計算機視覺技術。 嵌入式視覺技術有潛力支持大量電子產品(如本文討論的機器人系統),比以前更智能、更靈敏,因而對用戶更有價值。它可以向現有產品添加有用的功能。它可以為硬件、軟件和半導體的制造商們開創有重大意義的新市場。嵌入式視覺聯盟(Embedded Vision Alliance)是一個由技術開發人員和提供商組成的全球性組織,旨在使工程師能夠將這種潛力轉化為現實。 |