常言道:兼聽則明,偏信則暗。對于決策依據的選擇來說此言不假,但對于語音技術來說則剛好相反。我們所處的環境中常常伴有大量背景噪音,如果一個電子系統把所有的音頻信號統統接受,那么我們期望得到的音頻信號就會被噪音淹沒,系統的性能表現就會大打折扣。 實際上,人耳是一種有選擇的接收系統。當我們在嘈雜的餐廳交談時,我們也能盡力從背景噪音中撿拾對面那個人發出的語音信號。另一些動物具有更強的聽覺天賦。貓頭鷹可以在叢林中精確偵測出嚙齒類動物發出的細微聲響。 如果人類或貓頭鷹只有一只耳朵,那么我們拾取有用音頻信息的能力就會大打折扣。沒有了聲音定位的能力,我們就會把噪音和信號全部納入,然后讓大腦去分析哪些是噪音,哪些是信號。其結果就是,不但我們的分辨能力大幅降低,而且這樣做還大大增加了我們大腦的負擔。 大多數電子系統的降噪原理屬于后者,也就是從包含噪音的音頻中通過DSP算法提取語音信號。這樣提取出的語音信號即使可用也會產生不同程度的失真。 Audience公司的降噪技術屬于前者。這是一家總部位于美國加州山景城的公司,成立于2000年。該總司號稱是全球唯一一家將聽覺神經學產品化的公司。在公司成立后的前8年,Audience致力于完善產品技術,所以它真正進入市場的時間并不算長。 Audience公司的earSmart技術是一種仿生學。在聲音到達麥克風的那一刻,它就能根據算法判定哪些聲音是噪音而加以摒除,從而保證了進入系統的音頻信號的純凈度。Audience公司的工程師向我們演示了earSmart的降噪效果。用一臺揚聲器模擬餐廳背景噪音,然后用裝備earSmart技術的Nexus平板電腦進行錄音和回放。在關閉該公司ASR Assist專利技術的情形下,所錄的語言幾乎被背景噪音淹沒而無法分辨。開啟ASR Assist技術后重新錄音,我們聽到播放出的語言清晰悅耳,而且幾乎沒有任何失真。 earSmart技術針對三種情形下的應用:實時通訊(在嘈雜環境下可實現清晰的手機通話)、語音識別(在嘈雜環境下實現對錄入語音的文本轉換)和媒體捕捉(在嘈雜環境下實現與視頻同樣清晰的語音錄制)。 Audience公司最新產品有兩款:eS325高級語音處理器和eS515智能聲音處理器。eS325采用真正的三路麥克風、移動去回聲和超級寬帶噪音抑制語音技術,專利的ASR Assist技術實現優化的自動語音識別,用于多媒體則可實現移動音頻變焦和增強型高清立體式錄音。兩種處理器的框圖如下所示。欲了解詳情請點擊http://audience.com/products/our-processors/。 eS325高級語音處理器 eS515智能聲音處理器 目前,Audience公司的earSmart技術主要用于高端應用。據介紹,市場價格高于2000元的多款最新智能手機采用了Audience公司的的產品,如三星Galaxy S4和華為Ascend D2、Mate。另外,Audience與產業生態系統的各方展開積極合作,尤其是與科大訊飛的配合最醒目。在現場演示中,科大訊飛的語音識別軟件與Audience公司的earSmart技術相結合,移動產品在嘈雜環境下的語音識別速度與精度的確令人贊嘆。 |