引 言 隨著多媒體的發(fā)展,音樂播放器作為消費類電子產品,其不斷增長的消費要求促使生產廠家采用更先進的技術來提高自己產品的競爭力。近幾年來語音識別技術迅速發(fā)展,專門用于語音識別的芯片層出不窮,如凌陽大學計劃推出的SPCE061A單片機,性價比高,應用廣泛。結合語音識別技術與當前盛行的嵌入式技術,設計一款不僅具有傳統(tǒng)的按鍵控制功能且能控制語音的音樂播放器,具有一定的市場前景。 1 系統(tǒng)整體方案設計 音頻解碼方式分為硬件解碼和軟件解碼,硬件解碼根據(jù)在系統(tǒng)硬件的安排又有單芯片和雙芯片形式之分。雙芯片形式在于分離解碼芯片與控制芯片,解碼效果出色,但價格昂貴;單芯片形式為簡化結構犧牲了音質,但性價比高。軟件解碼功能實現(xiàn)起來比較靈活,成本低,但對微控制器的運行速度和內存要求較高。兩種解碼方式皆有利弊。本文提出了一個比較折中的方案,即采用ARM7微處理器的單芯片形式和軟件解碼方式,使性能優(yōu)化,同時符合市場需求。此外考慮到語音識別需實時響應,可采用語音識別專用芯片來完成,同時也保證了識別率。 基于以上分析,主機采用華邦公司生產的W90P710套件,從機采用凌陽公司的 SPCE061A作為語音識別芯片。基于W90P710的智能音樂播放器框架如圖1所示。 播放器的運行流程是:用戶打開機器首先進入功能界面,功能界面分音樂模式、錄音模式、訓練模式和文件管理。若打開機器時用戶沒有語音庫,則只能用按鍵控制機器,同時LCD屏提示用戶進入訓練模式訓練語音命令而獲得自己的語音庫;若訓練成功則可以語音控制播放器進入各個模式。進入音樂模式,在播放音樂時,LCD屏顯示歌曲的基本信息,如歌名、演唱者、專輯名等,同時可以按鍵和語音控制音樂的播放,如上一首、下一首、暫停、播放、退出等。在其他3種模式下,只能靠按鍵控制。 2 硬件設計 按照模塊化設計原則,將整個智能音樂播放器分成主控模塊、語音識別模塊、音頻模塊、顯示模塊和鍵盤。 2.1主、從機控制器 W90P710主機是系統(tǒng)控制和管理的核心,實現(xiàn)音樂播放,錄音,音樂文件和錄音文件的存儲、刪除、顯示,以及與單片機的串口通信等功能。該處理器以ARM7TDMI為內核,具有以下特性: ①片內集成LCD控制器,方便實現(xiàn)顯示功能; ②外部總線接口具有豐富的片選資源,可擴展NAND Flash等大容量存儲設備; ③具有4個串口,可方便實現(xiàn)與凌陽單片機的串口通信及程序調試。 同時,W90P710主頻能達到80 MHz,功耗低,有著十分優(yōu)秀的性價比,特別適用于系統(tǒng)控制領域。 系統(tǒng)的語音識別芯片為SPCE061A,是凌陽科技公司推出的針對語音識別領域的16位單片機,具有體積小、功耗低、性能好且易于開發(fā)等特點。該芯片使用凌陽音頻編碼SACM_S240方式(2.4 kbps),能容納210 s的語音數(shù)據(jù);具備串行設備接口;7通道10位電壓A/D轉換器(ADC)和1個單通道的聲音專用A/D轉換器。聲音A/D轉換器輸入通道,內置麥克風放大器和自動增益控制(AGC)電路。語音模式成功啟動或處于訓練模式下,單片機自行采集語音信號并進行識別,識別結果通過串行接口傳給主機。 2.2 音頻模塊 音頻模塊在整個系統(tǒng)中起著舉足輕重的作用,不但要實現(xiàn)錄音功能,而且還需播放MP3音樂、提示音和錄音文件。本系統(tǒng)的音頻接口由 AC97音頻接口總線接口和ALC203音頻編解碼器組成。ALC203是Realtek公司推出的一款經濟型音頻編解碼器,它通過AC97數(shù)字音頻接口實現(xiàn)音頻信號的數(shù)字化處理。圖2是關于音頻編解碼的具體實現(xiàn)電路,ALC203的2、3腳接1個24.576 MHz的晶振;5、6、7、10腳和華邦W90P710的AC97數(shù)字音頻接口AC97-DATO、AC97-BCLK、AC97-DATI、AC97- SYNC相連;MIC1和MIC2接麥克風兩端;HP-OUT-L和HP-OUT-R腳分別通過一個有極電容接到耳機插口處;GPIO1和GPIO0可以硬件調節(jié)音量,但本設計采用軟件進行音量調節(jié)。 2.3其他模塊設計 LCD顯示屏選用的是AUO公司的 A030DL01(320×240)工業(yè)級液晶屏。該液晶屏的彩色格式為RGB656格式,彩色色深可達到64K色,顯示文件名和歌曲基本信息,同時因屏幕空間較大,可添加彩色背景畫面。漢字顯示是通過添加字庫軟件實現(xiàn)的。 鍵盤有4×1個按鍵,方便用戶控制播放器,同時也保證在語音模式不能正確工作時可以按鍵控制機器。 3 軟件設計 為了使程序開發(fā)更加容易、便于維護,同時能夠提高系統(tǒng)的穩(wěn)定性和可靠性,采用嵌入式操作系統(tǒng)μClinux。播放器工作時,既要響應鍵盤又要響應語音命令,而語音命令由凌陽單片機識別出通過串口傳給主機,因而系統(tǒng)軟件的設計是采用消息循環(huán)的事件驅動模式。對輸入設備,即鍵盤和串口進行輪詢后,若有輸入,則按數(shù)據(jù)隊列原理,遵循先來先響應的原則。 在引言中曾提及該播放器進入功能界面后,可選擇音樂模式、錄音模式、訓練模式和文件管理任一菜單。鑒于篇幅,這里僅說明主從機通信方式和音樂模式。 3.1通信方式 在功能模式、音樂模式、訓練模式這3個語音工作的模式下,系統(tǒng)采用主從式通信方式,并由RS232總線實現(xiàn)。主機采用查詢工作方式,從機采用中斷工作方式。通信總是從主機開始,主機每進入到這3個模式就通過串口給從機發(fā)一個相應的命令字,從機即打開錄音設備并啟動語音辨識器開始識別,并將識別結果再次通過串口返回給主機。除非主機呼叫從機,從機在其他情況下不能主動向總線發(fā)送信息。 3.2音樂模式 音樂播放是整個音樂播放器的核心部分,可以播放MP3歌曲,顯示該歌曲的基本信息,并同時對鍵盤和串口進行輪詢。若有輸入,則按先來先響應的原則作出回應。 3.2.1 MP3音頻解碼 MP3是MPEG-1音頻層III(layer III)的簡稱。MPEG音頻(IOS/IEC11172-3)是目前普遍應用的音頻壓縮標準,其中層III的算法最為復雜,但壓縮比最大,效果好,在低碼率條件下基本能達到CD的音質效果。MP3解碼過程是將MP3編碼數(shù)據(jù)進行霍夫曼解碼,然后逆量化到實際的頻域幅值,最后經過IMDCT變換和濾波器組完成頻域到時域的變換,如圖3所示。這里不詳細介紹其解碼細節(jié),只列出幾個重要的MP3解碼接口函數(shù)。 MPEGDEC_STREAM*MPEGDEC_open(char*filename,MPEGDEC_CTRL*ctrl); 功能描述:打開MPEG音頻文件。 參數(shù):filename為待打開的音頻文件,ctrl為控制數(shù)據(jù)解碼信息的結構體。 返回值:打開成功,則返回包含數(shù)據(jù)流信息和解碼信息的結構體指針;失敗,則返回NULL。 void MPEGDEC_close(MPEGDEC_STREAM*mpds); 功能描述:關閉MPEG音頻文件。 參數(shù):mpds指向待關閉的音頻文件。 無返回值。 unaigned long MPEGDEC_decode_frame(MPEGDEC_STREAM*mpds,short*pcm[MPEGDEC_MAX_CHANNELS]); 功能描述:為當前打開的音頻文件的一幀解碼。 輸入:mpds指向打開的音頻文件。 輸出:pcm[]存放解碼后的16位音頻數(shù)據(jù);pcm[0]中存放單聲道或左聲道或聲道1的數(shù)據(jù);pcm[1]中存放右聲道或聲道2的數(shù)據(jù)。 返回值:返回解碼一幀的音頻數(shù)據(jù)數(shù)目;返回MPEG-DEC_ERR_EOF,則說明當前幀是最后一幀;返回MPEG-DEC_ERR_BADFRAME,則說明該幀已損壞。 3.2.2 歌曲基本信息結構體 按照MP3的ID3 V1.0標準定義,MP3文件的最后128字節(jié)用來存放標簽頭、歌曲名、演唱者等信息。為了在LCD屏上顯示當前播放歌曲的基本信息,給出了一個結構體來讀取并存放這些信息。這個結構體定義如下: 3.2.3播放主流程 當用戶選中歌曲進入播放界面時,ARM7主機首先通過串口給單片機發(fā)一個命令字0x01,通知從機進入識別“播放器”這組命令的函數(shù)。從機接收到命令后,首先判斷“播放器”這組命令是否已經訓練。若訓練,則返回0x04,同時播放器的語音模式啟動成功;若未訓練,則返回0x06,LCD屏顯示提醒用戶訓練該庫;若從機在規(guī)定時間內(因實時性要求,這里“規(guī)定時間”指200 ms)返回其他值或未返回值,則播放器的語音模式啟動失敗。若成功啟動語音模式,音樂是分幀解碼后播放,在幀-幀循環(huán)中,主機需查詢鍵盤和串口,來實現(xiàn) “上一首”、“下一首”、“播放”、“暫停”、“退出”和調節(jié)音量的功能。若語音模式啟動失敗,則只需查詢鍵盤。每次接收到“退出”命令時,主機在退出音樂模式前需通過串口發(fā)送0x05給單片機,通知單片機同步退出該模式;單片機接收到命令后,需返回0x04告知主機已退出。播放的主流程如圖4所示。關于語音命令如何訓練,可見參考文獻[5],這里不再贅述。 4 實驗結果 以W90P710開發(fā)套件+凌陽SPCE061A為硬件,采用嵌入式操作系統(tǒng)μClinux,在實驗室安靜和嘈雜的情況下(安靜時室內噪聲為50 dB,嘈雜時為60 dB),測試播放器語音模式的工作效率。在測試語音模式的工作效率前,先進行了按鍵測試,測試通過率為100%,且音樂播放流暢,響應滿足實時性要求。 要使語音模式有效工作,首先需訓練“播放器”的語音命令,即“播放”、“暫停”、“上一首”、“下一首”、“退出”這5個命令。訓練時環(huán)境至關重要,必須處于實驗室安靜環(huán)境下。訓練的5個命令并不一定是上述5個詞,只要表達出相應意思即可,如“上一首”、“下一首”命令直接訓練成“上”、“下”。筆者在實驗室安靜環(huán)境下訓練后,分別在安靜、嘈雜的環(huán)境下進行語音測試,結果分別為96.8%、77.8%。實驗結果顯示,在安靜環(huán)境下,語音通過率很高;在嘈雜環(huán)境下,語音通過率稍微低些,但可以和按鍵同時使用。 結語 本文設計了一款由主機W90P710、從機凌陽SPCE061A 單片機及其外圍電路組成的智能音樂播放器。硬件上重點介紹了音頻模塊;軟件上簡單說明了MP3解碼過程及給出了相關接口函數(shù),并詳細講述了播放主流程。最后在測試了按鍵能夠實時、正確響應的基礎上,又分別在安靜、嘈雜的環(huán)境下,進行了語音模式的響應測試,實驗結果說明,該播放器不僅能按鍵控制也能語音控制,且語音控制效果良好。 參考文獻 1. 周立功,等.ARM嵌入式系統(tǒng)軟件開發(fā)實例(一)[M].北京:北京航空航天大學出版社,2004. 2. Winbond W90P710 DataSheet[EB/OL].http://cn.alldatasheet.com/datas ... /W90P710.html.2006. 3. 羅亞非.凌陽16位單片機應用基礎[M].北京:北京航空航天大學出版社,2003. 4. 馬小虎,張明敏,嚴華明.多媒體數(shù)據(jù)壓縮標準及實現(xiàn)[M].北京:清華大學出版社,1996. 5. 李晶皎.嵌入式語音技術及凌陽16位單片機應用[M].北京:北京航空航天大學出版社,2003. 作者:東南大學 許小麗 章國寶 來源:《單片機與嵌入式系統(tǒng)應用》 2009(10) |