“車聯(lián)網構筑語音技術應用新世界” 在蘋果Siri所引發(fā)的全球語音熱潮的推動下,科大訊飛成為了中文語音識別領域的弄潮兒。然而一些有識之士深刻認識到,語音識別技術真正有價值的應用領域是在汽車駕駛,車聯(lián)網將成為語音技術應用領域的又一藍海。與科大訊飛走手機語音識別應用之路不同,車音網將語音識別應用的重點放在了汽車駕駛室內,并成功搭建了一個車載語音云平臺。 語音汽車 依托車載語音云平臺,駕駛者只要開口說話,相關需求就能得到滿足。 1920年代生產的“Radio Rex”玩具狗是眼下有據(jù)可查的最早的語音識別器,當這只狗聽到自己的名字時,它就會從底座上彈出來,嚇人一跳。那時候的語音識別技術是基于英文語音為基礎開發(fā),而作為象形文字的中文語音識別與作為音節(jié)文字的英文語音識別有著很大差別,而且也相對困難得多。 蘋果Siri(語音個人助理服務)的問世,展示出了語音識別技術在應用領域的非凡前景。科大訊飛則是借助蘋果Siri所引發(fā)的全球語音熱潮,成為在中文語音識別領域中異軍突起的企業(yè)。為此,中國移動宣布斥資14億元現(xiàn)金戰(zhàn)略入股科大訊飛,成為第二大股東。 對于這一舉措,中國移動方面稱,主要是由于看好語音技術的發(fā)展?jié)摿Γ悄苁謾C下一步的發(fā)展將會是以語音技術為主的人機互動科技,而科大訊飛已于內地上市,在語音技術業(yè)務方面取得行業(yè)領先地位,基于此雙方形成了目前的資本合作格局。 其實,語音識別技術并非蘋果的創(chuàng)舉,早期的聲碼器,可以看做是語音識別技術的雛形。在追溯中文語音識別技術起源時,另一家公司的名字映入眼簾——車音網。基于十余年語音識別技術的研發(fā)耕耘,車音網成為為車主提供基于語音識別技術的智能輔助駕駛服務的領頭羊。 早在1999年,車音網創(chuàng)始人沈康麒所帶領的技術團隊就開始投身語音識別技術的研發(fā),這群工程師也可以說是國內研究中文語音識別技術最早的那撥人。因此,在語音識別技術研發(fā)道路上,科大訊飛并不孤單。 記者通過采訪發(fā)現(xiàn),科大訊飛與車音網的底層技術原理和算法幾乎完全一致,但在對語音引擎理解、應用領域研究和業(yè)務發(fā)展方向等方面,兩家公司卻走著幾乎完全不同的道路。車音網的核心團隊基于十余年語音識別技術的研發(fā)耕耘,深刻認識到,語音識別技術真正有價值的應用領域在車里,在手眼感官被占、行為受限的特定行為空間當中。 車音網致力于為車主提供基于語音識別技術的智能輔助駕駛服務,并成功搭建了一個車載語音云平臺。依托該平臺,駕駛者只要開口說話,相關需求就能得到滿足。憑借優(yōu)秀的語音技術基礎和卓越的用戶體驗,車音網在短短三年時間內就發(fā)展近20萬用戶。 語音引爆車聯(lián)網 在車聯(lián)網服務大規(guī)模增長的路上,人機交互的語音識別技術被認為是必備的入場券。 車音網所在的行業(yè)叫車聯(lián)網(Telematics),也就是車載信息服務,即借助無線通信網,為駕車人士提供諸如免提電話、道路救援、指路導航、車輛遠程診斷、預訂酒店等多樣化的汽車安全及信息服務。 在美國,車聯(lián)網市場規(guī)模已超過100億美元,但在中國,2009年車聯(lián)網才開始起步。車聯(lián)網服務源自歐美,是一種結合了全球衛(wèi)星定位系統(tǒng)和無線通信技術的汽車遠程信息服務。通俗地說,裝了Telematics的汽車,就像是航線上的飛機,包括運行軌跡、車況等一切數(shù)據(jù)信息都能被服務中心及時掌握,而駕駛者也能通過無線網絡隨時與服務中心進行聯(lián)系,及時獲取所需的信息和服務。“路上快行、車下秘書、車上生活、車上辦公”是車聯(lián)網的本質特征。 從產業(yè)鏈上來看,車聯(lián)網服務可以分為以移動通信運營商為主的后裝市場和以汽車廠商為主的前裝市場兩個部分。前者主要側重位置導航、實時路況、資訊娛樂等車載位置與信息服務;而后者則集中于車輛診斷、碰撞緊急求助、被盜車輛追蹤、呼叫中心等汽車安防服務。 在歐美,車聯(lián)網服務已經是駕駛者不可缺少的一項服務。譬如,通用ON-STAR(安吉星)在全美有5000萬用戶,且在通用車里使用比例高達到50%,但對中國車主而言,這還是一個全新的概念。 毫無疑問,這將是一個很龐大的市場。一個簡單的數(shù)據(jù)對比或可以說明,相對于中國過億的乘用車保有量相比,目前使用車聯(lián)網服務的還不足1%。無論是海外經驗證明還是簡單的邏輯分析,都可以得出這樣的結論:鑒于這樣的服務與個體生命密切相關,“用戶黏性”非常好,其市場一旦爆發(fā),規(guī)模勢必驚人。 但三年時光匆匆過,車聯(lián)網行業(yè)的發(fā)展依然是“雷聲大,雨點小”。談及現(xiàn)狀,業(yè)內普遍認為,一方面是這一行業(yè)還缺乏“殺手級”的應用,另一方面則是因為中國車主的消費觀念短期內難以改變,市場還需要逐步培育。 車音網副總裁陸凌濤分析稱,在前裝市場,汽車廠商還沒有相關意識,即使有了意識后,也涉及一些汽車生產標準的調整,這需要時間;而在后裝市場,目前多數(shù)人還是把車當奢侈品,而不是一個工具,這決定了消費習慣。 不過,多數(shù)人相信,這一市場即將爆發(fā),而在車聯(lián)網服務大規(guī)模增長的路上,基于人機交互的語音識別技術被認為是必備的入場券。陸凌濤說,在車載環(huán)境下用戶能做什么,受制于與汽車的交互方式。他認為,在車載環(huán)境下,用戶的主要集中力在于駕駛,人與車的交互必須在不影響駕駛的前提條件下進行。語音識別技術則提供了這樣一種安全便攜的交互方式,用戶只需動口,即可滿足在行車過程中撥打電話、位置導航、資訊播報、語音點歌、車輛診斷等伴隨式服務。 語音夢回車里 通過語音識別技術,車音網已經幫車主實現(xiàn)了“動口不動手”的車上信息服務。車音網可以說是國內首家通過智能手機實現(xiàn)車聯(lián)網服務的企業(yè),十幾年的語音識別領域耕耘最終在車聯(lián)網的應用領域迸發(fā)出火花。 蘋果公司在今年6月份舉行的全球研發(fā)者大會(WWDC)中提到,iPhone未來將會用一根數(shù)據(jù)線與汽車連接,駕駛者(用戶)可以通過方向盤上的按鈕觸發(fā)Siri,包括豐田、捷豹在內等九大廠商已經承諾將在未來一年內開發(fā)支持iPhone Siri的接口。屆時,駕駛者將能一邊駕駛,一邊和身旁這位上知天文下知地理的助手聊天。 令人興奮的是,這些設想早在三年前就已經在車音網的業(yè)務規(guī)劃當中,通過藍牙技術,車音網已經實現(xiàn)手機與汽車的連接的產品化,通過語音識別技術,車音網也已經幫車主實現(xiàn)了“動口不動手”的車上信息服務。真正實現(xiàn)了將語音識別切入到人的實際生活場景中去。車音網整合了語音通訊、地圖、地理信息、音樂媒體等幾乎所有生活信息,然后進行人性化的整合,并且用語音交互的方式表達出來。 通過切身的體驗,更加令人興奮的是,蘋果在WWDC上提出,未來的iPhone僅僅用一個觸發(fā)按鈕就能實現(xiàn)Siri與汽車的結合,而車音網卻已經將這個按鈕裝到了車上,而且通過國際通用的藍牙技術,這個按鈕能連接的手機當然不僅僅是iPhone,還有其他各類的具備藍牙功能智能手機,還因為車音網的服務實現(xiàn)方式是建立在2G基礎上的IVR話音通道和基于3G通訊網絡的數(shù)據(jù)通道,所以甚至就連非智能手機都能聽得懂車主的“發(fā)號施令”,就如同在你駕車的時候,身邊多了一個聽得懂人話、幾乎無所不能的助手副駕。 在移動互聯(lián)網領域中看似簡單的語音應用,在高速行駛、行為受限的車載應用場景中,卻并非那么簡單。首要問題就是語音識別技術的商用能力成為關鍵,噪音、麥克風回聲、口音問題等等都會深深的影響語音技術的識別率,而語音識別率的高低又直接影響用戶的體驗,同時也關系到語音技術開發(fā)企業(yè)的核心競爭力。 “事實上,噪音和麥克風回聲都有辦法建立模型來解決,但實現(xiàn)更高的語音識別率首先需要解決口音問題,尤其在中國這個口音繁雜的環(huán)境下,不同地域不同口音的語料數(shù)據(jù)庫以及針對語料庫的語音模型分析至關重要。”陸凌濤說,要提高語音識別率,并不僅僅需要龐大資金的支持,還需要時間的積累。 據(jù)了解,在語料采集方面,沈康麒曾親自帶領一支數(shù)據(jù)團隊,專門在全國各地收集采錄不同口音、不同階段年齡、不同性別在不同環(huán)境下的真實語料。這樣的工作十余年來始終堅持不懈,并不惜耗資過億進行特征提取、模型訓練,形成了世界上獨一無二的廣譜語音特征數(shù)據(jù)庫資源,這為車音網特有的商用級非特定人語音識別技術打下了堅實的基礎。 機會總是留給有準備的企業(yè)。 從2010年下半年開始,汽車銷量在經過大規(guī)模快速增長后,增速放緩甚至出現(xiàn)了停滯,許多汽車廠商意識到需要通過差異化服務來增加銷量,而車聯(lián)網這一在歐美汽車行業(yè)發(fā)展了近十年的新興汽車信息服務被引進后,幾乎成為了所有汽車廠商特別是國產汽車品牌尋求市場差異化的興奮劑。但當時由于國內很多汽車廠商缺乏相關的技術積累,只能找到技術相對成熟的第三方公司合作。 于是,國內一些車廠紛紛找到了車音網洽談合作。截至目前,奔騰、蓮花、斯巴魯、一汽豐田、一汽馬自達、安吉星等車廠及TSP(Telematics運營服務商)紛紛開始與車音網尋求合作打造語音服務平臺。車音網正逐漸成為中國車聯(lián)網行業(yè)中基于語音識別技術的人機交互平臺的主要提供商。 語音車的未來 陸凌濤表示,要達到更自然的人機交互,需要三個層面的努力:自然語言識別、人工智能和知識庫,缺一不可。 完美的語音技術,或者人類對這一技術的最終想象,早在上個實際80年代,就在美國的科幻電影《霹靂游俠》中的那輛聽得懂人話的汽車上就已有所展現(xiàn),直到近期,電影《鋼鐵俠》中的那位無所不能的智能管家、《機器管家》中的那位機器人,都在不斷體現(xiàn)著人們對語音識別技術的應用渴望,這些機器(人)不僅能夠完美執(zhí)行指令,而且還能夠讀懂人的感情。從這一意義上來說,從事語音識別研發(fā)的公司均存在著巨大的潛在前景。但讓機器讀懂你在說什么,這實在是一件浩大的工程。 陸凌濤表示,要達到更自然的人機交互,需要三個層面的努力:自然語言識別、人工智能和知識庫,缺一不可。而云計算和大數(shù)據(jù)時代的到來,這些科幻小說里的場景幾乎距離大眾只剩下“最后一公里”。云計算帶來的一個好處是,每個人的數(shù)據(jù)都是存儲在云端的,不管這個人到了哪里,他的數(shù)據(jù)都可以隨時調用,他的偏好都可以隨時下載下來。 設想這樣的場景,你在云端設置了一個叫“我的家”的地點,然后當你對著手機喊“我的家”時,它會告訴你怎么走。但當你和你的汽車系統(tǒng)說去“我的家”時,它顯然并不能理解“我的家”是什么,因為它的數(shù)據(jù)和云端的數(shù)據(jù)是不相通的。 每個人每天用得最多的設備毫無疑問是手機,你的大多數(shù)個人數(shù)據(jù)和個人偏好都被手機記錄了下來。如果每臺手機都是一個助手,顯然這個助手是眾多數(shù)碼助手中最了解你的。而汽車系統(tǒng)因為是相對獨立的,它并沒有像手機那樣,了解那么多你的偏好,甚至,它能知道你經常在什么地點之間往返就已經算是“聰明的汽車”了。 另一方面,目前每個汽車廠商研發(fā)的汽車系統(tǒng)都是相對獨立的,這給數(shù)據(jù)共享帶來了難度。設想某一智能汽車已經了解了你的偏好,某一天你換車了,你得重新調教這輛車,讓它更“懂”你。 于是,如果每個人開車時都連上自己的手機,這時在你手機里記錄的個人偏好就被完整的移植到了汽車系統(tǒng)當中,哪怕這并不是你自己的車,那一瞬間,這輛車也是完全懂你的。所以更智能的、更個性化的汽車系統(tǒng),必將與手機密不可分,或者說,必將與手機記錄下來的用戶數(shù)據(jù)密不可分。 而這也恰是車音網眼中車聯(lián)網產業(yè)的最后一公里,讓你的車“聽懂”你,讓你的車“更懂”你! 來源:證券時報 |