移動互聯網、智能手機以及社交網絡的發展帶來了海量圖片信息,伴隨著圖片成為互聯網中的主要信息載體,難題隨之出現。當信息由文字記載時,我們可以通過關鍵詞搜索輕易找到所需內容并進行任意編輯。而當信息是由圖片記載時,我們卻無法對圖片中的內容進行檢索,從而影響從圖片中找到關鍵內容的效率。
圖片給我們帶來了快捷的信息記錄和分享方式,卻降低了我們的信息檢索效率。在這個環境下,計算機的機器視覺識別技術就顯得尤為重要。機器視覺識別是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術,識別過程包括圖像預處理、圖像分割、特征提取和判斷匹配。 借助機器視覺識別技術,不僅可以通過圖片搜索更快的獲取信息,還可以產生一種新的與外部世界交互的方式,甚至讓外部世界更加智能的運行。隨著圖形識別技術的不斷進步,越來越多的科技公司開始涉及圖形識別領域,這標志著讀圖時代正式到來,并且將引領我們進入更加智能的未來。 機器視覺識別的初級階段 在這個初始階段,用戶主要是借助機器視覺識別技術來滿足某些娛樂化需求。如百度研發的圖片搜索可以找到相似的圖片;Facebook研發根據相片進行人臉匹配的DeepFace;IQ Engine開發的Glow可以通過機器視覺識別自動生成照片的標簽以幫助用戶管理手機上的照片。 這個階段還有一個非常重要的細分領域——OCR(Optical Character Recognition,光學字符識別),是指光學設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別的方法將圖像形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。 在這個階段,機器視覺識別技術僅作為輔助工具存在,為人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行交互的方式,如將人臉識別作為主要的身份認證方式等。這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯網直接對信息進行分析并返回結果。 機器視覺識別的高級階段 目前的機器視覺識別技術是作為一個工具來幫助我們與外部世界進行交互,只提供輔助作用,所有的行動還需我們自己完成。而當機器真正具有了視覺之后,機器不僅可以對外部信息進行獲取和分析,還完全有可能代替我們去完成這些行動。 機器視覺之于人工智能的意義就是視覺之于人類的意義,而決定著機器視覺的就是機器視覺識別技術。在某些應用場景,機器視覺比人類的生理視覺更具優勢,更加的準確、客觀和穩定。人類視覺有著天然的局限,似乎能詳細生動的感知整個視覺場景,但這是一個錯覺,只有投射到眼球中心的視覺場景的中間部分,我們才能詳細而色彩鮮明的看清楚。 機器在這方面就有著更多的優勢,它們能夠發現和記錄視力所及范圍內發生的所有事情。拿視頻監控來說,傳統監控需要有人在電視墻前時刻保持高度警惕,然后再通過自己對視頻的判斷來得出結論,但往往會因為人的疲勞、視覺局限和注意力分散等原因影響監控效果。但有了成熟的機器視覺識別技術之后,計算機就可以自行對視頻進行分析和判斷,發現異常情況直接報警,帶來了更高的效率和準確度。
|