語音識別技術與嵌入式USB主機系統是目前電子設計領域的新興技術,其應用十分廣泛。本系統結合該兩項技術,實現了一個嵌入式USB主機結構的電子語音記錄系統。該系統充分利用了凌陽單片機強大的語音識別功能。并通過嵌入式USB主、從控制芯片SL811HS和相應的軟件設計,實現了語音信號的智能識別,并以嵌入式主機方式保存到USB存儲器。該系統在保證了嵌入式系統的小型化特點的同時又實現了文字的錄入功能。它即可以作為一個可靈活更換存儲媒體的電子語音記事本,也可以作為一個語音錄入器,將記錄在USB存儲器中的文本文件方便的轉移到PC機等其他文字處理設備進行再處理,具有極高的功能可擴展性。 1 系統結構與原理 圖1是系統的硬件結構框圖。系統主要包括語音采集模塊、凌陽單16位片機SPCE061A、液晶顯示模塊、USB主機接口控制器和USB存儲器等幾個部分。 該系統的功能是通過語音樣品采集訓練、語音識別和USB存儲等三個環節來實現的。語音樣品采集時,通過語音數據采集模塊內的駐極話筒來采集語音。采集到的語音數據通過SPCE061A的MIC-IN端輸入,再經過SPCE061A內部A/D轉換器將其轉換成數字信號,并調用訓練API函數對其進行特征提取,并以樣品模板庫要求的格式保存到SPCE061A的FLASH中。音樣品采集訓練時的提示信息和訓練結果會在LCD上顯示。 語音識別時,采集到的語音數據通過A/D轉換后,由語音識別API函數對其進行特征提取,再與樣品模板庫中的語音樣品進行特征匹配。匹配后的結果在LCD上顯示的同時,交給USB主機接口控制器,進入下一步的信息保存環節。 在USB主機接口控制器模塊和與之配合的USB協議和FAT文件系統的支持下,系統完成對USB設備的枚舉。并以文本文件的格式將上一環節所識別出來的信息保存到USB存儲器中,最終實現系統的全部功能。 2 語音識別 語音識別屬于模式識別,它主要包括語音信號預處理、特征提取、語音模板庫、測度估計和識別決策等幾個模塊。與人的認知過程很相似, 語音識別分為訓練和識別兩個階段。在訓練階段, 語音識別系統對語音樣本進行學習。學習結束后,把學習的內容存儲到模板庫中。在識別階段,把當前輸入的語音在模板庫中查找最相近的結果,并進行相應的處理。語音識別的基本原理框圖如圖2所示 凌陽SPCE061A單片機具有上述的語音識別技術要求的硬件和軟件的全部功能。硬件方面,SPCE061A內部有一個A/D轉換的輸入通道和自動增益控制電路AGC,能隨時跟蹤、監視前置放大器輸出的音頻信號電平,使進入A/D的信號保持在最佳電平。 由于SPCE061A的MIC-IN通道內部做了AGC自動增益和濾波處理,語音的采集只需一個駐極話筒和少量的外圍阻容電路即可。相關電路如圖3所示。 軟件方面,凌陽SPCE061A提供了一組專用的API函數來支持語音識別功能。這組API函數的功能、C語言調用格式、參數和返回值分別表述如下: (1)訓練函數:Train(int WordID,int TrainMode),用于特定人語音識別的模型訓練。 C語言調用格式:int BSR_Train(int WordID,int TrainMode) 參數:WordID 命令序號,范圍從0x100到0x105,并且對于每組訓練語句都是唯一的。 TrainMode:訓練次數,要求使用者在應用之前訓練一遍或兩遍。 返回值:訓練成功返回0;沒有聲音返回-1;訓練需要更多的語音數據返回-2;環境太吵返回-3;數據庫滿返回-4;兩次輸入命令不同返回-5;序號超出范圍返回-6。 (2)語音識別器初始化函數:InitRecognizer(int AudioSource),用于語音識別器初始化。 C語言調用格式:void BSR_InitRecognizer(int AudioSource) 參數:定義語音輸入來源。BSR_MIC通過MIC語音輸入。 BSR_LINE_IN是LINE_IN電壓模擬量輸入。 返回值:無。 (3)獲取識別結果函數:GetResult(void)用于完成語音識別,并返回語音識別結果。 C語言調用格式:int BSR_GetResult(void) 參數:無。 返回值:無命令識別出來返回0;識別器停止、未初始化或識別未激活返回-1;識別不合格返回-2;識別出命令返回命令的序號。 3 USB主機接口 USB主機接口是整個系統的核心。它由USB主機接口芯片和USB協議以及FAT文件系統等構成。本文主要介紹USB主機接口芯片的功能和電路設計。 USB主機接口芯片采用的是Cypress公司的SL811HS,它是一款嵌入式的USB主、從控制器芯片,它可以實現USB主機結構中的總線接口層的功能。其功能模塊框圖如圖4所示。SL811HS內部的串行接口引擎實現了主機與總線上數據的并串轉換任務。USB主機的端點也是這個芯片上的部分寄存器,主機通過向這些端點寫數據,就可以將這些數據直接轉換為USB總線上的差模二進制數據,或者接收總線上的差模二進制數據,并存入端點寄存器,供主機取用。 CPU對SL811HS的狀態進行檢測和控制的操作都是基于寄存器實現的,因此從硬件的角度來看,系統軟件的編程就是對SL811HS的一系列寄存器和緩沖區的讀/寫訪問。 由于系統只實現USB主機的功能,所以將控制SL811HS的主/從機工作方式的M/S管腳直接接地,使USB接口工作在主機方式。其中SL811HS的A0功能較為靈活,它為低電平時表示數據線上的數據是SL811HS的RAM空間的地址指針。而緊接著置位A0實現讀寫指定地址的RAM中數據,從而實現數據的傳輸。SL811HS支持地址自增模式,即可以將連續地址單元中的內容讀出傳送,而不用再次寫入地址指針,從而大大的提升數據傳輸的有效率。圖5為SL811HS的外圍電路及引腳定義。 4 系統軟件設計 系統軟件設計主要完成對語音的識別,并將識別的結果通過文件系統層提供的文件操作函數寫入到U盤。而U盤在接入到系統時需要完成對USB設備的枚舉,在確定為存儲設備后,又要進行海量存儲設備的枚舉,以完成對U盤的各參數的提取。本文重點介紹系統的主設計流程。 語音的識別首先需要將待識別的命令特征存入語音識別模板庫,然后才是對相應命令的辯識。這一部分的程序是在主程序中處理的,其流程如圖6 所示。 程序在初始化工作環境后,判斷FLASH中是否已經存在語音特征模型。如果沒有,就需要擦除FLASH,然后通過訓練得到命令的語音特征模型,并存入FLASH中,并修改標記說明FLASH中已經有命令的語音特征模型了。通過這樣的處理后語音特征模型才會在每次系統重新上電后不需要重新訓練采集。在識別階段,如果有命令與語音模型庫中的命令相匹配,則返回相應命令代號,通過switch-case語句就可以對相應命令進行處理。 5 結束語 本系統設計充分利用了凌陽單片機SPCE061A的語識別功能,使所設計系統的集成度和性能有很大提高。由于采用了USB主機結構實現USB海量存儲的嵌入式系統設計方案,本設計在系統功能擴展上具有極大的潛力,有很好的應用前景和科研價值。 |