作者:Noam Mizrahi(Marvell CTO辦公室,技術副總裁兼首席科學家) 如今,數據生成的速度遠超人們的想象。在以前,人是數據產生的主要來源;而現在,圖像設備、傳感器、無人機、互聯汽車、物聯網設備及工業設備組件等,以多樣的途徑生成各類格式的數據。 然而,我們不應該將數據與信息混為一談,對兩個概念進行區分至關重要。 從價值角度衡量,目前僅有一小部分已收集數據可稱作是真正的資產。以圖像處理設備為例,一分鐘時長的相關活動于此至關重要,而非長時間的無關緊要的視頻片段。以此類推,如果將“數據”比作礦山,人人想要挖掘的金塊就是“信息”。將該類數據轉變成有價值信息的能力(所謂“挖掘”)稱為“分析”。 圖 1: 2009 年至 2020 年數據存儲需求漲幅 圖 1 所展示的圖表由分析公司 Statista 繪制,顯示了過去十年間數據存儲容量呈現驚人的增長。據預測,截止 2020 年,存儲需求將達到 42,000 EB以上。但是,絕大多數的數據存儲(大多數估算顯示占比至少為 80%)毫無結構化可言,在使用這類數據進行分析時,無疑會帶來諸多困難。據估計,僅有 5% 的數據存儲可以真正用于分析。如果有一種方式可以使用元數據在執行分析的環境中有效描述這類非結構化數據,則可以用來分析的數據量將顯著增加,企業所擁有的數據可產生的價值將得到大幅提升。 人工智能 (AI)是對現代社會的各個領域帶來重大影響的技術,這些領域包括電子商務、自然語言翻譯、金融科技、安全、目標識別/檢測乃至可快速確認危及生命癌細胞位置(或其他異常癥狀)的醫學領域。盡管應用領域多樣,但它們都有一個共同點:能通過采用一項可高效掃描大量非結構化數據(視頻、文本、聲音、圖像等)并對其進行處理的技術,從而獲取真正的價值。 具體而言,Marvell 不僅可以利用人工智能技術執行分析過程,還可以通過此技術前置處理非結構化的原始數據,以便為其提供標記的元數據,從而采用簡單又準確的方式表示這類數據。通過上層分析軟件可以分析此簡化版數據庫并從中收集有用的信息。在此之前,企業一直期盼通過人工智能技術從其存儲的數據中發掘更多的價值,但卻始終毫無頭緒。 基于上述情況,Marvell 希望生成的元數據能夠提升分析軟件運行效率,并且將人工智能技術作為從大量非結構化數據庫中創建元數據庫的工具。現在只需要將大量數據導入人工智能計算機中進行處理即可。但是,這是否真的是正確的方法? 如果考慮到現在生成和存儲數據的兩種主要方式,即“云端” (‘the Cloud’) 和“邊緣設備”(‘the Edge’),可以很快聯想到移動這些大量數據將產生昂貴費用。有了新技術,這些可以得到有效解決。在云端傳輸大量數據,會對數據中心構建網絡的基礎設施帶來壓力,并會消耗大量電力及增加延遲水平,從而延長了整體處理時間。對于邊緣設備而言,不同之處在于可用的計算機和電力資源有限。由于所在位置的小型設備的網絡功能限制,因此無法將大量數據上傳至云端。在這兩種情況下,最大化操作效率的關鍵在于盡量減少移動數據量并使用元數據取而代之。 在來源處(例如存儲設備中的數據存儲位置)分配元數據會比四處轉移數據更為高效。固態硬盤 (SSD)已經包含作為計算機實體所需的基本元素。這些設備通常只能用于與硬盤相關的操作,但也可以轉換其用途,用于與功能相關的任務以及負責標記處理,或通過集成式硬件/軟件/固件模塊的輔助,實現上述功能。其中的一種操作模式為使用空閑的硬盤窗口執行后臺映射任務,另外一種方式則為寫入硬盤數據時同時對其進行處理。如果在存儲位置部署這種加速方式并應用于正確的用例中,其益處不僅在于節約電量及費用,還可以盡量減少數據移動并大幅降低延遲,以及降低整體網絡流量。此方式固有的可擴展性意味著企業和云服務提供商利用人工智能技術可擴展其業務范圍。 去年八月在美國圣克拉拉舉辦的全球閃存峰會(Flash Memory Summit)上,Marvell 發表了極具開創性的 AI SSD概念驗證控制器,展示了如何在不需要訪問主機 CPU 處理資源的情況下,有效執行數據標記,同時避免上述提及的費用和延遲問題。Marvell 現場向參會者展示了 Marvell 數據中心及使用開源 NVIDIA 深度學習加速器 (NVDLA) 技術的客戶端 SSD 控制器 IC 如何繼承受過訓練的人工智能模型,將其編譯到集成式人工智能推斷IP,以及在硬盤中掃描存儲于本地的非結構化數據的大型數據庫(例如視頻庫)。由此可生成標記并在搜索環境中創建可代表數據的元數據庫。 如果將檢測和識別物體或場景作為目標,人工智能推斷引擎可掃描存儲于硬盤的視頻文件,并創建可列出其出現時間點的元數據。基于這項新型人工智能增強存儲技術,可在固態硬盤中本地存儲元數據庫并可供分析軟件使用。 當執法機構在時長無休止的視頻文件中尋找可疑點時,他們可以加載受過訓練的模型。該模型能夠準確辨別上述可疑點并可在所有適用的視頻內容中進行推斷,此類推斷可作為后臺任務運行于所有存儲視頻內容的硬盤中。這種方式可以記錄及標記上述可疑點的蹤跡,更易于后續進行深入分析。 同樣,此架構會使類似于后臺聊天機器人 (ChatBot)的分析更為高效,此類分析涉及需要掃描聊天機器人通話的大型數據庫以便改善服務質量。通過上述做法,可以判斷用戶在何時對其收到的回復感到滿意/生氣,或者通話時長是否合適等。創建可追蹤這些判斷標準的人工智能模型后,則可將這些標準編譯到人工智能存儲推斷引擎內,并離線掃描通話。對于類似于電視點播(VOD)服務的個性化廣告插入、人物/物體搜索及利用數據近似度的各種密集型輸入/輸出 (IO-intensive)用例,其也可帶來明顯的性能優勢。 在無需昂貴的定制化 IC 的情況下,Marvell 首創的人工智能 SSD 控制器技術展示了如何執行新型數據存儲架構以處理難以計算的“大數據”相關應用程序的擴數據陣列。通過向市場中已有的固態硬盤硬件提供更為智能化的附加邏輯的訪問,可直接處理對下一代分析工作負載至關重要的元數據和標記,而無需連接專屬處理資源。 遵循這種依賴傳統集中式處理的替代策略,可使整個過程更為高效。只需占用最少的可用網絡帶寬,并且不會發生瓶頸問題。將人工智能加速器直接集成到具有成本效益的固態硬盤控制器 IC 中,可快速完成分析任務,不僅可以減少處理容量及降低相應的電費預算,還可以完全避免從頭開發專屬集成電路芯片(ASIC)的需求。 可編程架構的使用為更新所用人工智能模型帶來諸多便利條件,以便在開發新用例時隨時解決任何問題。 |