來源:Digi-Key 作者:Jody Muelaner 機(jī)器視覺是一系列技術(shù)的融合,可使工業(yè)或其他的自動(dòng)化設(shè)備從圖像中獲得對當(dāng)時(shí)環(huán)境的高級理解。如果沒有機(jī)器視覺軟件,具有不同色彩值和色調(diào)強(qiáng)度的數(shù)字圖像對于此類設(shè)備來說只不過是簡單的、無任何聯(lián)系的像素集合。機(jī)器視覺讓計(jì)算機(jī)(通常與機(jī)器控制器相連)檢測這類圖像中的邊緣和形狀,以使更高級別的處理程序識別出預(yù)先定義的目標(biāo)物體。這種意義上的圖像并不局限于可見光譜中的攝影圖像;這類圖像也可以包括使用紅外、激光、X 射線和超聲波信號獲得的圖像。 圖 1:機(jī)器視覺正越來越多地用于更復(fù)雜的機(jī)器人應(yīng)用。(圖片來源:John6863373 | Dreamstime.com) 在工業(yè)環(huán)境中,相當(dāng)常見的機(jī)器視覺應(yīng)用從物料箱中雜亂放置的許多零件中識別出特定的零件。在這里,機(jī)器視覺有助于拾放機(jī)器人自動(dòng)拾取正確的零件。當(dāng)然,如果這些零件都以相同的方向整齊地排列在托盤上,那么用成像反饋來識別這些零件就相對簡單了。然而,功能強(qiáng)大的機(jī)器視覺算法可識別與攝像機(jī)有不同距離的物體(因此在成像傳感器上顯示為不同大小的圖像)以及與相機(jī)不同向的物體。 最復(fù)雜的機(jī)器視覺系統(tǒng)已經(jīng)實(shí)現(xiàn)了遠(yuǎn)比從物料箱揀選零件更復(fù)雜的新興設(shè)計(jì),例如,可能沒有比自動(dòng)駕駛汽車更復(fù)雜的識別了。 圖 2:機(jī)器視覺使工業(yè)或其他系統(tǒng)能通過圖像對環(huán)境獲得高級了解。(圖片來源:Wikimedia) 與機(jī)器視覺有關(guān)的技術(shù) 機(jī)器視覺這一術(shù)語有時(shí)被保留下來,以便參考那些能從圖像中提取信息的更成熟、更有效的數(shù)學(xué)方法。相比之下,計(jì)算機(jī)視覺一詞通常描述的是更現(xiàn)代、計(jì)算要求更高的系統(tǒng)——包括使用機(jī)器學(xué)習(xí)或人工智能 (AI) 的黑箱方法。然而,機(jī)器視覺也可作為一個(gè)包羅萬象的術(shù)語,包括從圖像中提取高級信息的所有方法;在這種情況下,計(jì)算機(jī)視覺描述了其基本的運(yùn)行理論。 能從圖像中提取高級含義的技術(shù)比比皆是。在研究界,此類技術(shù)通常被認(rèn)為不同于機(jī)器視覺。然而實(shí)際上,所有這些都是實(shí)現(xiàn)機(jī)器視覺的不同方式...而且他們在許多情況下是重疊的。 數(shù)字圖像處理是數(shù)字信號處理的一種形式,涉及圖像增強(qiáng)、修復(fù)、編碼和壓縮。相比模擬圖像處理,其優(yōu)點(diǎn)是最大限度地減小噪音和失真以及有眾多算法可用。最初的一種圖像增強(qiáng)是用來校正第一批月球表面的近距離圖像的。在此過程中,使用了攝影測量制圖以及噪聲濾波器,并針對成像攝像機(jī)對準(zhǔn)月球表面所產(chǎn)生的幾何失真進(jìn)行了修正。 圖 3:DLPC350 集成電路 (IC) 控制器提供輸入和輸出觸發(fā)信號,使所顯示的模式與攝像機(jī)同步。該控制器與數(shù)字微鏡設(shè)備 (DMD) 配套使用,旨在為工業(yè)、醫(yī)療和安全設(shè)備提供 3D 機(jī)器視覺。事實(shí)上,其應(yīng)用包括 3D 掃描以及計(jì)量系統(tǒng)。(圖片來源:Texas Instruments) 數(shù)字圖像增強(qiáng)通常涉及增大對比度,還可能針對視角和鏡頭失真進(jìn)行幾何校正。壓縮通常是通過將復(fù)雜信號近似為余弦函數(shù)組合來實(shí)現(xiàn)的——一種被稱為離散余弦變換 (DCT) 的傅里葉變換。JPEG 文件格式是 DCT 最常見的應(yīng)用。圖像修復(fù)也可以使用傅里葉變換來消除噪音和模糊。 攝影測量學(xué)采用某種特征識別來從圖像中提取測量結(jié)果。當(dāng)從不同位置獲得同一場景的多幅圖像時(shí),這些測量結(jié)果可以包括 3D 信息。最簡單的攝影測量系統(tǒng)采用比例尺測量圖像中兩點(diǎn)之間的距離。為此,通常需要在圖像中包含一個(gè)已知的參考比例。 特征檢測讓計(jì)算機(jī)識別圖像中的邊緣、拐角或點(diǎn)。這是攝影測量以及識別物體和運(yùn)動(dòng)所需的第一步。Blob 檢測可以識別出邊緣過于光滑而無法進(jìn)行邊緣或拐角檢測的區(qū)域。 模式識別用于識別特定對象。在最簡單的情況下,這可能意味著需要在傳送帶上找到一個(gè)定義明確的特定機(jī)械部件。 3D 重構(gòu)確定來自 2D 圖像物體的 3D 形態(tài)。這種功能可通過攝影測量方法來實(shí)現(xiàn)。其中,共同特征的高度(在不同觀測點(diǎn)的圖像中確定)采用三角測量來確定。單純使用 2D 圖像進(jìn)行 3D 重構(gòu)也是可能的;在此,軟件也解釋了邊緣或陰影區(qū)域之間的幾何關(guān)系。 圖 4:3D 掃描儀捕捉物體的 2D 圖像以構(gòu)建其 3D 模型。在某些情況下,數(shù)字模型隨后會用于 3D 打印副本。(圖片來源:深圳創(chuàng)想三維科技股份有限公司) 人類可以在大腦中利用線描畫法加工簡單地重構(gòu)出立方體——利用陰影圓重構(gòu)出球體。陰影顯示了表面的坡度。然而,這種推導(dǎo)過程遠(yuǎn)比想象中復(fù)雜的多,因?yàn)殛幱笆且痪S參數(shù),而坡度則發(fā)生在二維情況下。這可能導(dǎo)致模棱兩可的情況——這是由描繪物理上不可能的物體的藝術(shù)驗(yàn)證了的事實(shí)。 圖 5:用計(jì)算機(jī)根據(jù) 2D 圖像確定工件的 3D 形狀充滿了挑戰(zhàn)。 機(jī)器視覺任務(wù)是如何排序的 通過從低級操作開始,然后逐步推進(jìn)到高級操作,許多機(jī)器視覺系統(tǒng)都逐步地結(jié)合了上述技術(shù)。在最低級別下,圖像的所有像素都作為高帶寬數(shù)據(jù)保存。然后,序列中的每個(gè)操作都能識別圖像特征,并以相對較少的數(shù)據(jù)量來表示所關(guān)注的信息。 首先是圖像增強(qiáng)和修復(fù)的低級操作,其次是特征檢測。因此在使用多傳感器的情況下,可由專門針對單獨(dú)傳感器的分布式進(jìn)程來執(zhí)行低級操作。一旦在單獨(dú)圖像中檢測到特征,就可進(jìn)行更高級的攝影測量——正如任何物體識別或其他依靠來自多個(gè)圖像和傳感器的組合數(shù)據(jù)的任務(wù)一樣。 直接計(jì)算和學(xué)習(xí)算法 在機(jī)器視覺情況下,直接計(jì)算是一組由程序員定義的數(shù)學(xué)函數(shù)。這些函數(shù)接受諸如圖像像素值之類的輸入,產(chǎn)生諸如物體邊緣坐標(biāo)之類的輸出。相比之下,學(xué)習(xí)算法不是由人類直接編寫的,而是通過將輸入與期望的輸出相關(guān)聯(lián)的實(shí)例數(shù)據(jù)集進(jìn)行訓(xùn)練的。因此,學(xué)習(xí)算法作為黑盒子使用,F(xiàn)在大多數(shù)此類機(jī)器學(xué)習(xí)都采用了基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)來進(jìn)行計(jì)算。 圖 6:iVu 系列的圖像傳感器可以通過類型、尺寸、位置、方向和顏色來識別工件。機(jī)器視覺組件可以接受配置,并通過集成屏幕、遠(yuǎn)程 HMI 或 PC 進(jìn)行監(jiān)控。攝像機(jī)、控制器、鏡頭和燈都是預(yù)先集成的。(圖片來源:Banner Engineering Corp.) 如果基于直接計(jì)算,工業(yè)應(yīng)用的簡單機(jī)器學(xué)習(xí)往往更可靠,計(jì)算要求也更低。當(dāng)然,通過直接計(jì)算所能達(dá)到的效果是有限的。例如,永遠(yuǎn)不要希望執(zhí)行人臉來識別所需的高級識別模式,特別是不要希望從擁擠公共空間的視頻資料中進(jìn)行識別。相比之下,機(jī)器學(xué)習(xí)能巧妙地處理此類應(yīng)用。因此,機(jī)器學(xué)習(xí)越來越多地被部署到低級機(jī)器視覺操作中就不足為奇了,具體包括圖像增強(qiáng)、修復(fù)和特征檢測。 改進(jìn)教學(xué)方法(不是算法) 深度學(xué)習(xí)技術(shù)的日趨成熟讓人發(fā)現(xiàn),需要改進(jìn)的不是學(xué)習(xí)算法本身,而是算法的訓(xùn)練方式。一種經(jīng)過改進(jìn)的訓(xùn)練程序被稱為以數(shù)據(jù)為中心的計(jì)算機(jī)視覺。在這里,深度學(xué)習(xí)系統(tǒng)接受由數(shù)千、數(shù)百萬、甚至數(shù)十億張圖像組成的非常強(qiáng)大的訓(xùn)練集——然后保存通過其算法從每張圖像中提取的合成信息。這些算法通過工作實(shí)例聯(lián)系來實(shí)現(xiàn)有效學(xué)習(xí),然后參考“答案書”來驗(yàn)證是否得出了正確數(shù)值。 有一個(gè)關(guān)于數(shù)字模式識別的老故事具有警醒作用。美國軍方曾經(jīng)打算利用機(jī)器視覺進(jìn)行目標(biāo)識別,國防承包商的演示可靠地識別出了美制和俄制坦克。各種不同的坦克都能從供應(yīng)商的航拍照片中一輛接一輛地正確區(qū)分出來。但是,當(dāng)用五角大樓自己的圖片庫再次測試時(shí),該系統(tǒng)卻不斷地給出錯(cuò)誤的答案。問題是,國防承包商的圖片都描繪了沙漠中的美國坦克和綠地上的俄羅斯坦克。該系統(tǒng)沒有識別出不同的坦克,反而識別出了不同顏色的背景。識別標(biāo)準(zhǔn)是什么呢?學(xué)習(xí)算法需要有精心策劃的訓(xùn)練數(shù)據(jù)才能發(fā)揮作用。 結(jié)論:機(jī)器人工作單元的安全愿景 機(jī)器視覺不再是一項(xiàng)利基技術(shù)。在目前開來,工業(yè)領(lǐng)域是機(jī)器視覺部署增長最大的領(lǐng)域。在該領(lǐng)域,最引人注目的發(fā)展是目前機(jī)器視覺如何完善工業(yè)工廠的安全系統(tǒng),即當(dāng)工人在沒有佩戴安全帽、防護(hù)面具或其他合適的防護(hù)用品的情況下進(jìn)入工作區(qū)時(shí),該系統(tǒng)會發(fā)出警報(bào)或發(fā)出語音通知。機(jī)器視覺還可用于當(dāng)叉車等移動(dòng)機(jī)械離人員太近時(shí)發(fā)出警示的系統(tǒng)。 這些和類似的機(jī)器視覺系統(tǒng)有時(shí)可以取代工業(yè)機(jī)器人周圍的硬防護(hù)措施,以使操作更有效。機(jī)器視覺系統(tǒng)還可以取代或加強(qiáng)基于燈光防護(hù)的安全系統(tǒng),這些安全系統(tǒng)只要發(fā)現(xiàn)工人進(jìn)入工作單元就會停止機(jī)械運(yùn)行。當(dāng)機(jī)器視覺監(jiān)測到工作單元周圍的工廠地面時(shí),該單元中的機(jī)器人有可能在人員靠近時(shí)逐漸減速。 隨著工業(yè)環(huán)境設(shè)計(jì)的發(fā)展,以適應(yīng)協(xié)作機(jī)器人和其他工作單元設(shè)備,使工廠人員可以安全地走動(dòng)(甚至在設(shè)備運(yùn)行時(shí)),這些和其他基于機(jī)器視覺的系統(tǒng)會成為工廠流程中更常見的一部分。 |