語音識別研究的根本目的是研究出一種具有聽覺功能的機器,能直接接受人的口呼命令,理解人的意圖并做出相應的反映。語音識別系統的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域。近年來,高性能數字信號處理芯片DSP(Digital Signal Process)技術的迅速發展,為語音識別的實時實現提供了可能,其中,AD公司的數字信號處理芯片以其良好的性價比和代碼的可移植性被廣泛地應用于各個領域。因此,我們采用AD公司的定點DSP處理芯片ADSP2181實現了語音信號的識別。 1 語音識別的基本過程 根據實際中的應用不同,語音識別系統可以分為:特定人與非特定人的識別、獨立詞與連續詞的識別、小詞匯量與大詞匯量以及無限詞匯量的識別。但無論那種語音識別系統,其基本原理和處理方法都大體類似。一個典型的語音識別系統的原理圖如圖1所示。 語音識別過程主要包括語音信號的預處理、特征提取、模式匹配幾個部分。預處理包括預濾波、采樣和量化、加窗、端點檢測、預加重等過程。語音信號識別最重要的一環就是特征參數提取。提取的特征參數必須滿足以下的要求: (1)提取的特征參數能有效地代表語音特征,具有很好的區分性; (2)各階參數之間有良好的獨立性; (3)特征參數要計算方便,最好有高效的算法,以保證語音識別的實時實現。 在訓練階段,將特征參數進行一定的處理后,為每個詞條建立一個模型,保存為模板庫。在識別階段,語音信號經過相同的通道得到語音特征參數,生成測試模板,與參考模板進行匹配,將匹配分數最高的參考模板作為識別結果。同時,還可以在很多先驗知識的幫助下,提高識別的準確率。 2 系統的硬件結構 2.1 ADSP2181的特點 AD公司的DSP處理芯片ADSP2181是一種16b的定點DSP芯片,他內部存儲空間大、運算功能強、接口能力強。有以下的主要特點: (1)采用哈佛結構,外接16.67MHz晶振,指令周期為30ns,指令速度為33MI/s,所有指令單周期執行; (2)片內集成了80 kB的存儲器:16 kB字的(24b)的程序存儲器和16kB字(16b)的數據存儲器; (3)內部有3個獨立的計算單元:算術邏輯單元(ALU)、乘累加器(MAC)和桶形移位器(SHIFT),其中乘累加器支持多精度和自動無偏差舍人; (4)一個16b的內部DMA端口(1DMA),供片內存儲器的高速存取;一個8b自舉DMA(BDMA)口,用于從自舉程序存儲器中裝載數據和程序; (5)6個外部中斷,并且可以設置優先級或屏蔽等。 由于ADSP2181以上的特點,使得該芯片構成的系統體積小、性能高、成本和功耗低,能較好地實現語音識別算法。 2.2 系統的硬件結構 在構成語音識別電路時,我們采用了ADSP2181的主從結構設計方式,通過IDMA口由CPU裝載程序。語音識別系統的硬件結構如圖2所示。 在這種結構中,PC機為主CPU,ADSP2181為從CPU,由PC機通過IDMA口將程序裝載到ADSP2181的內部存儲器中。PC機總線通過CPLD譯碼,形成IRD,IWR,IAL,IS等控制信號,與ADSP2181的IDMA口相連。這樣,在ADSP2181全速運行時,主機可以查詢從機的運行狀態,可以訪問到ADSP2181內部所有的程序存儲器和數據存儲器。這對程序的編譯和調試,以及語音信號的實時處理帶來了極大的方便。 3 語音識別的DSP實現技術 3.1 浮點運算的定點實現 在語音識別的算法中,有許多的浮點運算。用定點DSP來實現浮點運算是在編寫語音識別程序中需要首先解決的問題。這個問題可以通過數的定標方法來實現。數的定標就是決定小數點在定點數中的位置。Q表示法是一種常用的定標方法。其表示機制是: 設定點數是J,浮點數是)/,則Q法表示的定點數與浮點數的轉換關系為: 浮點數)/轉換為定點數x:x= (int)y×2Q; 定點數z轉換為浮點數y:y =(float)x×2-Q。 3.2 數據精度的處理 用16b的定點DSP實現語音識別算法時,雖然程序的運行速度提高了,但是數據精度比較低。這可能由于中間過程的累計誤差而引起運算結果的不正確。為了提高數據的運算精度,在程序中采用了以下的處理方法: (1)擴展精度 在精度要求比較高的地方,將計算的中間變量采用32b,甚至48b來表示。這樣,在指令條數增加不多的情況下卻使運算精度大大提高了。 (2)采用偽浮點法來表示浮點數 偽浮點法即用尾數+指數的方法來表示浮點數。這時,數據塊的尾數可以采用Q1.15數據格式,數據塊的指數相同。這種表示數據的方法有足夠大的數據范圍,可以完全滿足數據精度的要求,但是需要自己編寫一套指數和尾數運算庫,會額外增加程序的指令數和運算量,不利于實時實現。 以上兩種方法,都可以提高運算精度,但在實際操作時,要根據系統的要求和算法的復雜度,來權衡考慮。 3.3 變量的維護 在高級語言中,有全局變量與局部變量存儲的區別,但在DSP程序中,所有聲明的變量在鏈接時都會分給數據空間。所以如果按照高級語言那樣定義局部變量,就會浪費大量的DSP存儲空間,這對數據空間較為緊張的定點DSP來說,顯然是不合理的。為了節省存儲空間,在編寫DSP程序時,最好維護好一張變量表。每進入一個DSP子模塊時,不要急于分配新的局部變量,應優先使用已分配但不用的變量。只有在不夠時才分配新的局部變量。 3.4 循環嵌套的處理 語音識別算法的實現,有許多是在循環中實現的。對于循環的處理,需要注意以下幾個問題: (1)ADSP2100系列DSP芯片中,循環嵌套最多不能超過4重,否則就會發生堆棧溢出,導致程序不能正確執行。但在語音識別的DSP程序中,包括中斷在內的嵌套程序往往超過4重。這時不能使用DSP提供的do…unTIl…指令,只能自己設計出一些循環變量,自己維護這些變量。由于這時沒有使用DSP的循環堆棧,所以也不會導致堆棧溢出。另外,如果采用jump指令從循環指令中跳出,則必須維護好PC,LOOP和CNTR三個堆棧的指針。 (2)盡量減少循環體內的指令數。在多重循環的內部,減少指令數有利于降低程序的執行次數。這樣有利于減少程序的執行時間、提高操作的實時性。 3.5 采用模塊化的程序設計方法 在語音識別算法的實現中,為了便于程序的設計和調試,采用了模塊化的程序設計方法。以語音識別的基本過程為依據進行模塊劃分,每個模塊再劃分為若干個子模塊,然后以模塊為單元進行編程和調試。在編寫程序之前,首先用高級語言對每個模塊進行算法仿真,在此基礎上再進行匯編程序的編寫。在調試時,可以采用高級語言與匯編語言對比的調試方式,這樣可以通過跟蹤高級語言與匯編語言的中間狀態,來驗證匯編語言的正確性,并及時的發現和修改錯誤,縮短編程周期。另外,在程序的編寫過程中,應在關鍵的部分加上必要的注釋與說明,以增強程序的可讀性。 在總調時,需要在各模塊中設置好相應的人口參數與出口參數,維護好堆棧指針與中間變量等。 3.6 利用C語言與匯編語言的混合編程 現在,大多數的DSP芯片都支持匯編語言與C或C++語言的混合編程,ADSP2181也不例外。用C語言開發DSP程序具有縮短開發周期、降低程序復雜度的優點,但是,程序的執行效率卻不高,會增加額外的機器周期,不利于程序的實時實現。為此,在用C語言編寫語音識別算法時,我們采用了定點化處理技術。ADSP2181是16位定點處理器,定點化處理應注意以下幾個問題: (1)ADSP2181支持小數和整數兩種運算方式,在計算時應選擇小數方式,使計算結果的絕對值都小于1; (2)用雙字定點運算庫代替C語言的浮點庫,提高運算精度; (3)注意在每次乘加運算之后進行飽和操作,防止結果的上溢和下溢; (4)循環處理后的一組數據可能有不同的指數,要進行歸一化處理,以便后續定點操作對指數和尾數部分分別處理。 4 結 語 用定點DSP芯片構成的語音識別系統有著廣泛的應用前景,在編寫語音識別算法時,對其進行定點化處理以及一些原則和方法對其他類似的算法也有著現實指導意義。在實際應用中,應注意根據DSP芯片的特點,對算法進行優化,使得DSP芯片的性能得到充分的發揮。 |