由于近來平板電腦、計算機、智能電視機和其它消費電子設備用的語音控制接口的興起,語音質量成為了一個熱門話題。如果沒有可以理解的語音,自動語音識別功能就不能正確工作,無法用作可靠的輸入設備。這個問題還與噪聲環境糾纏在一起,而噪聲環境可能嚴重地降低語音的質量,甚至會使語音控制功能完全不可工作。 傳統噪聲抵消技術需要折衷考慮噪聲抑制程度和語音質量:噪聲抑制水平越高,語音失真的可能性也越大。為了盡量減少這種折衷,工程師開發出了噪聲抑制算法來減少噪聲電平,這種技術在固定噪聲場合具有很好的效果,但在街道噪聲和類似其它非固定噪聲的場合,性能并不理想。 隨著智能手機上引入第二個麥克風,噪聲抵消技術向前邁進了一大步。手機上的兩個麥克風工作在與人類聽覺系統相似的方式。然而,這個功能并不能提供足夠的噪聲抵消水平來消除語音呼叫或語音控制場合的所有背景噪聲,例如在開車或乘坐公共交通工具、甚至在音樂聲很大的家里時。 增加用于高級噪聲抵消的傳感器 除了標準的兩個音頻麥克風外,高級噪聲抵消技術使用了一個新增的傳感器,然后應用3D-Vocal算法執行多個語音處理任務,包括回波和背景噪聲抵消、響度均衡和一般語音增強。消除背景噪聲可以顯著提高智能手機、平板電腦和其它移動設備中的自動語音識別(ASR)和語音呼叫應用的準確率。 下圖1.0顯示了一個高級噪聲抵消技術如何影響有噪聲語音的例子。上面的波形代表有噪聲的語音,是語音和環境噪聲疊加的產物(S+N),而下面的波形是經過3D語音處理后得到的干凈語音信號。 圖1.0:對語音和環境噪聲應用典型的3D語音處理技術后的結果。 圖2.0顯示的是聲譜圖,上面的圖形代表有噪聲語音(S+N)的聲譜圖,下面的聲譜圖顯示的是經過3D語音處理后的語音信號。 圖2.0:對語音和環境噪聲進行3D處理后的聲譜圖。 利用傳感器和兩個麥克風提供的擴展數據集,3D-Vocal算法可以提取出用于表征語音源的特征信號,并區分屬于感興趣語音的聲音分量與環境噪聲。圖3.0中的框圖顯示了高級噪聲抵消技術中的音頻處理路徑。 圖3.0:3D語音處理框圖。 3D語音處理框圖中的各個模塊說明如下: 3D-Vocal(頻譜-時間分析):接收來自麥克風陣列和VSensor的所有信號,并對組合信息執行專門的頻譜-時間處理。3D-Vocal數據中的一些相關圖案與環境噪聲有關,其它圖案則被識別為用戶語音。3D-Vocal頻譜-時間處理功能將用戶語音從預測的環境噪聲中分離出來,并為語音/噪聲特征提取模塊提供一些參考信息。 特征提取:包含要饋入其它模塊的語音/噪聲數據。提取出的特征包含了有關用戶語音和環境噪聲的頻譜-時間、實時信息。這些信息可以用來從用戶語音中濾除環境噪聲,實現回波抵消性能增強等功能。 環境噪聲抵消:抵消各種固定和非固定、相關和非相關的環境噪聲。環境噪聲抵消算法使用特征提取信息和3D-Vocal模塊的輸出信息。 均衡:均衡接收信號的頻譜分布,使其匹配ASR處理或語音呼叫的要求。 盡量減小語音識別應用中的錯字率 為了評估改進的語音質量如何影響虛擬輔助(Virtual Assist)性能,需要開展錯字率(WER)的測試。測試中根據以下公式計算口語序列和識別序列之間的錯字數: 其中,S是替換的字數,D是刪除的字數,I是插入的字數,C是正確的字數,N是參考信號中的字數(N=S+D+C)。 語音腳本規定用帶3D語音處理和2D語音處理的移動手機上的商用化虛擬輔助系統加以描述,其中包含有不同的背景噪聲類型,比如咖啡館、酒吧、汽車和火車,然后分別計算3D語音處理和2D語音處理技術時的錯字率(WER)。 為了了解測試平臺性能,測試使用了如圖4所示的裝置。測試在聽音室中進行,室內有一個人頭和軀干模擬器(HATS)。待測移動手機固定在人體模型的頭上。符合ETSI EG 202 396-1的背景噪聲通過一個由主PC觸發的PC注入4個揚聲器和1個低音炮。HATS的嘴巴播放“專門的干凈語音”,這個語音是從主PC那里通過模擬前端(Head Acoustics公司的測量前端MFE VI.I)饋送出來的。被移動手機捕獲到的語音則通過虛擬輔助系統轉換為文本電子郵件,然后通過分析接收到的文本郵件計算誤字率。 圖4.0:錯字率測試裝置。 測試結果如圖5所示。當使用3D語音處理技術時,所有噪聲類型下的誤字率都在10%-15%范圍內。當使用2D語音處理技術時,誤字率在18%至60%之間,具體取決于噪聲類型,這意味著在噪聲環境下采用2D語音處理技術的自動語音識別(ASR)功能是不一致的,在有些噪聲類型時能很好地工作,遇到其它噪聲類型時性能可能很差。然而,我們可以從圖5看到,如果采用3D語音處理技術,自動語音識別性能的劣化非常有限,并且對所有噪聲類型是一致的,因而使得虛擬輔助系統在各種不同噪聲環境具有明顯更高的可靠性。 圖5.0:利用3D語音處理技術可提高虛擬輔助可靠性。 利用3D語音處理提高語音通信應用的質量 如果智能手機采用高級噪聲抵消技術實現語音通信,那么語音質量可以從“差”顯著提升到“很好”。可以使用ETSI EG 202 396-1標準比較3D語音處理技術和標準2D噪聲抵消技術下的音頻質量。這個標準定義了一個測試噪聲抑制算法質量的客觀方法。表1給出了常見質量的得分情況(GMOS)。 根據MOS得分對不同類型的噪聲環境下使用內置2D處理技術的智能手機的語音質量進行了比較。如圖6所示,3D語音處理得分明顯高于標準的2D語音處理。 表1:常見MOS得分(GMOS)。 圖6.0:在3D語音處理和標準2D語音處理情況下作為噪聲類型函數的GMOS比較。 3D語音處理附加值 除了更好的語音控制使語音應用在噪聲環境中更加有用外,3D語音處理技術還能提供諸多增值好處。它不僅能增強智能手機、平板電腦和各種消費電子設備的語音控制性能,也能使許多其它特殊應用受益。這種技術支持在談話過程中插入背景音樂或聲音,因而可以為電信服務提供商帶來新的增值業務,如彩鈴。 基于安全和方便的原因,免提操作經常是消費者的首選。而語音控制剛剛開始顯露出真正的潛能。測試結果表明,3D語音處理可以顯著提高語音控制的可靠性和可用性,使得它成為極有價值的差異化功能。借助這種最新技術,消費者可以享受更多的便利,而運營商和消費電子設備制造商則可以體驗新的一系列令收入增長的產品和服務。 原文作者:Lior Blanka,DSP Group公司 |