自動駕駛狂飆突進,數據標注需求激增 據不完全統計,2022年1月至10月,國內自動駕駛領域共融資67起,披露融資額累計達143億元;而從10月到12月,國內智能駕駛相關領域發生融資事件40多起,累計融資超百億元,自動駕駛“狂飆”之勢顯著。 這一方面得益于前景的牽引——麥肯錫研究報告指出,2030年中國自動駕駛汽車總銷售額將達2300億美元,基于自動駕駛的出行服務訂單金額將達2600億美元,是全球最大的自動駕駛市場;另一方面也受益于政策的驅動——工信部發文對L3、L4自動駕駛車輛展開試點工作,國家首次發放城市高級輔助駕駛地圖許可…… 在自動駕駛狂飆突進之際,其背后關鍵的數據標注需求也在激增。IDC數據顯示,2021年我國人工智能數據采集、標注服務市場規模為30億元左右。未來幾年將保持快速增長,增速維持在20%以上,預計2025年市場規模將達到123.4億元。自動駕駛正是其中需求巨大且增長迅速的一個領域。 自動駕駛行業的數據標注,指的是在采集自動駕駛各場景數據后,通過分類、分割、關鍵點線標注、畫框、追蹤等處理方式,對圖像、文本、語音、視頻、3D點云等原素材中的各類對象進行標記注釋,將多源異構的數據轉化成可識別的AI訓練數據,從而成為機器學習的價值數據。 據英特爾推算,在全自動駕駛時代,每輛汽車每天產生的數據量高達4000GB,但這些數據中可用于訓練的價值數據占比不到5%。因此自動駕駛訓練需要從海量的數據中“淘”到有用的價值數據。在自動駕駛算法拉不開差距的情況下,越是高級別的自動駕駛,越是依賴數據標注的質量。 數據標注范式生變,AI破局人海戰術 數據標注是一個勞動密集型產業,非常依賴人工,拼的是規模和人力成本。為此還興起了一個名為“數據標注師”的職業,他們每天在各種圖片上框選物體,標注名稱,做著簡單重復的工作。同時,這個產業也像汽車自動駕駛一樣不斷在進化。 一般認為,智能駕駛/自動駕駛領域的數據標注發展大致經歷了三個階段。2012年前的第一代數據標注以開源的單機標注工具為代表,具備有限場景的標注能力,主要滿足10K以下數量級的標注處理;2012年后隨著深度學習走熱,新興的數據標注平臺具備了多場景數據標注能力,可以滿足10K-100K數量級的標注處理;2019年后自動駕駛的火熱對數據標注的量級提出更高要求,純人工模式難以應對100K、1000K甚至更大規模的數據標注,AI開始介入形成人機協同的智能化數據平臺。 經過數年的耕耘,在2022年這個自動駕駛商業化進程顯著加速的轉折之年,國內已經出現一批優質的主打自動化、精細化的數據標注平臺,利用AI的無限生產力,代替有限的人工生產力,為自動駕駛數據標注行業降本、提質、增效。 以曼孚科技為例,這家國內最早專注自動駕駛數據標注領域的企業,在2022年7月宣布完成5000萬元Pre-B輪融資(近三年累計融資金額數億元)后,已經進化為一家AI驅動的數據智能平臺。其MindFlow SEED 數據服務平臺通過AI+RPA驅動自動駕駛數據標注規模化量產,在數據處理(尤其是3D點云數據處理)領域建立起6-12個月的技術壁壘,將綜合人效平均提升30%,數據生產成本平均降低40%,突破了產能局限,實現了AI數據規模化量產。 這方面國際標桿是一家名為Scale AI的創業企業。該公司人利用AI訓練數據,借助美國大力發展自動駕駛的東風,2022年已成為估值73億美元的行業獨角獸。 受限于美國高昂的人力成本,Scale AI很早就將人工智能應用到自己的數據標注服務中,即先用AI識別一遍,再用人工主要負責校對其中的錯誤;校對完的數據再度用來訓練AI系統,使得下一次標注更精準……如此往復循環,隨著訓練數據越來越多,做標注的效率也就越來越快,需要人工參與也就越來越少,成本自然也就越來越低。 先進技術需要落地,產品力決定生命力 當然需要指出的是,隨著自動駕駛市場提速以及Scale AI憑借AI標注大獲成功,國內一些泛數據標注企業也火速搭上自動駕駛和AI自動標注的便車,仿佛一夜之間從過去的人海時代升級到AI時代,但其實這并沒有解決根本問題,背后極有可能還是人海戰術。 極客智庫研究認為,AI在自動駕駛數據標注領域的應用是一個行業+AI的過程,兩者融合的成效取決于廠商在自動駕駛數據標注這個行業的專注程度以及Know-how水平。換句話說,那些起步較早且專注于自動駕駛數據標注領域的企業,往往能夠將行業知識與AI技術深度磨合,打造出AI人機協同的數據標注產品及智能化數據平臺,獲得市場的檢驗和認可。 總之,自動駕駛的星辰大海需要更多價值數據作為“養料”,我們呼喚更多真正的AI標注產品及智能數據平臺為此助力,共創共贏美好明天! |