中國的經(jīng)濟生機勃勃,廣大的人群和手機用戶群的存在,使得我們的環(huán)境變得非常的嘈雜和喧鬧。在火車站、機場和街道上,隨處可見人們打電話的場景。現(xiàn)實生活中的噪音成為了影響用戶體驗的一個難題。如何移除這些噪音,只是保留純凈的音質(zhì),是需要解決的一大挑戰(zhàn)。 在Audience(奧頂智音)公司近期的新品宣講會上,該公司市場營銷副總裁Robert Schoenfield(圖1)談到,回顧電腦和手機界面的變革,電腦界面最初是以DOS命令行輸入;Windows桌面的推出使得人機交互得以改觀;觸摸屏的進步使得人們不需要借助鍵盤就可以在觸摸屏上輸入指令。如今便到了語音的天下,很多應(yīng)用都是基于語音實現(xiàn)的。不管是智能手機、平板電腦或是家電,當操作者發(fā)出語音后,這些設(shè)備能夠?qū)ζ溥M行處理并理解這些指令信息。 圖1:Audience公司市場營銷副總裁Robert Schoenfield。 然而,現(xiàn)實世界的環(huán)境中不可避免地混雜著或多或少的噪聲。如何剔除這些噪聲,僅獲得純凈的語音,便是該公司的解決方案。Audience公司的工程師和科學家專注于聽覺神經(jīng)學的研發(fā),對聲音和語音進行處理。該公司潛心研究并模擬了人耳接收周圍環(huán)境信息的功能。人們在說話時,方向是有指向性的,音調(diào)也是在發(fā)生改變的。同時,人與人之間在交流時,人耳會判斷并專注于對方的說話聲,而不會被環(huán)境噪聲所擾亂。Audience對人耳的聽覺特點模擬出算法,移植到了芯片之上。 Audience公司的earSmart技術(shù)從實時通訊、語音識別和媒體捕捉三個方面對用戶體驗進行改善。在實時通訊上,該公司和移動運營商合作,致力于提升用戶的通話體驗——在非常吵雜和喧鬧的環(huán)境下,用戶仍能夠進行清晰的通話。earSmart技術(shù)還可以提高語音識別功能。科大訊飛的語音識別技術(shù)讓用戶體驗提升到一個新的層次,earSmart技術(shù)可以幫助剔除背景噪音,保留純凈的音質(zhì)。 人們早期使用手機僅限于語音通話,現(xiàn)在的手機具有攝像機和音樂播放器等多種功能。視頻捕捉已經(jīng)達到全高清的體驗,自然,大家便希望音頻捕捉功能能夠達到與視頻捕捉同樣的效果。 Audience公司的工程師在現(xiàn)場用揚聲器和帶有eS325芯片(圖2)的平板電腦,模擬了在人聲鼎沸的餐館中進行手機免提通話的場景。通過在平板電腦上開啟和關(guān)閉降噪功能,錄音并進行回放,可以聽到明顯的效果反差。 圖2:采用earSmart技術(shù)的eS325高級語音處理器及其結(jié)構(gòu)。 另一個演示是語音識別。科大訊飛的語音識別引擎可以幫助實現(xiàn)語音搜索和導(dǎo)航功能。然而,語音識別的準確率必須在65%以上,才能得到用戶的認可。當用戶從安靜的客廳轉(zhuǎn)換到喧鬧的大街上,便會發(fā)現(xiàn)語音識別功能并不那么好用。在引入Audience的ASR Assist(自動語音識別輔助)功能后,噪聲環(huán)境下語音識別的準確率可改善到80%以上。 Robert 介紹說,Audience的芯片已經(jīng)被多家手機廠商所采用,其技術(shù)也使得整個手機行業(yè)的面貌煥然一新。大家所用到的手機產(chǎn)品,不管是三星、蘋果還是華為的手機,都裝了兩個麥克風。這兩個麥克風就好比人類的兩只耳朵,可以幫助我們只接收語音信息,剔除掉環(huán)境噪音。 目前,Audience已經(jīng)出貨了3億多顆高級語音處理器芯片,應(yīng)用于150多種移動設(shè)備。三星的Galaxy S3和S4,華為的Mate以及小米、魅族、步步高等公司產(chǎn)品都采用了該公司的技術(shù)。另外,該公司也與谷歌、微軟等操作系統(tǒng)提供商合作,使他們的操作系統(tǒng)對其解決方案提供支持。對于PC或平板電腦的語音操作,不像手機那樣距離較近,在遠距離的語音識別上,該公司的解決方案也可以提升這些設(shè)備的用戶體驗。 到目前為止,Audience推出了三代產(chǎn)品。該公司的第一代產(chǎn)品是非常簡單的具有雙路麥克風噪音抑制的近距離通話窄帶電話技術(shù)。第二代產(chǎn)品的旗艦型號eS305,則支持遠距離通話的寬帶電話技術(shù)以及ASR Assist技術(shù),提供多媒體處理功能。第三代技術(shù)產(chǎn)品——高級語音處理器eS325(三星的Galaxy S4上采用的便是這項技術(shù))(圖3),使超級寬帶網(wǎng)絡(luò)電話技術(shù)(24kHz)成為可能,并提供了第二代ASR Assist技術(shù)。該產(chǎn)品不僅在前代產(chǎn)品的基礎(chǔ)上實現(xiàn)了非常大的升級換代(真正的三路麥克風技術(shù)),而且提供了De-reverb技術(shù)、音頻變焦以及增強型高清立體聲錄制功能。智能聲音處理器eS515則是在eS325基礎(chǔ)上,集成了高性能的立體聲音頻編解碼器(圖4)。 圖3:采用eS325高級語音處理器的系統(tǒng)框圖。 圖4:智能聲音處理器eS515在eS325基礎(chǔ)上集成了高性能的立體聲音頻編解碼器。 世界各地移動運營商的技術(shù)規(guī)范并不一樣。美國的移動運營商對音質(zhì)要求非常高,希望能夠剔除所有噪聲,只保留純凈的音質(zhì),而歐洲的運營商則希望將背景噪聲盡可能降低(不至于影響通話),這樣也可通過通話了解對方所處的環(huán)境。Robert強調(diào),針對不同移動運營商的標準,Audience的產(chǎn)品都可以做到高度兼容。 手機最初的功能僅限于打電話,后來加入了短信功能,隨著互聯(lián)網(wǎng)的興起,用戶可以在手機上進行信息搜索和瀏覽網(wǎng)頁,如今,各種社交媒體平臺受到廣大用戶的歡迎。所有這些平臺都是朝語音驅(qū)動的方向來進步的。比方說,駕車時是不可能用手指點屏幕,這時用戶便希望通過語音來操作導(dǎo)航儀。Audience已經(jīng)將人機交互的技術(shù)發(fā)展到用語音來取代觸摸屏。 另外,LTE的部署將會帶來非常大的機遇。首先是可以讓語音變成真正的移動寬帶數(shù)據(jù),使語音數(shù)據(jù)傳輸速率變快;第二,數(shù)據(jù)傳輸率的飛躍,將會促進語音應(yīng)用程序的發(fā)展。同時,移動運營商需要具有前瞻性的目光,在4G產(chǎn)品推出之前制定包括語音應(yīng)用在內(nèi)的各種技術(shù)規(guī)范。Audience和中國移動共建了一個語音實驗室,幫助進行技術(shù)規(guī)范的制定及其解決方案的測試,同時這也有利于對將來整個生態(tài)系統(tǒng)的開發(fā)。 |