作者:M. Malcangi*, M. D’aria*, R. Sannino***, L. Spelgatti*** * 意大利米蘭大學(xué)計(jì)算機(jī)學(xué)系 ** 意大利米蘭比可卡大學(xué) *** 意法半導(dǎo)體(意大利Agrate)公司 摘要:在過去10年里,以人類語言和音頻信號為媒介的人機(jī)交互應(yīng)用在日常生活的作用越來越重要。設(shè)備本身必須充分利用不同的功能,才能取得最佳的性能,例如,音頻定位、自動(dòng)語音識別、自動(dòng)說話人識別等。本文著重探討取得這些結(jié)果所需的算法和完整的嵌入式方案即MEMS麥克風(fēng)陣列所需的硬件架構(gòu)。 關(guān)鍵詞:音頻定位,語音識別,說話人識別,MEMS麥克風(fēng) 1. 前言 自動(dòng)語音識別、語音模式識別和說話人識別及確認(rèn)等應(yīng)用對噪聲十分敏感,信源定位識別是音頻和語音信號捕捉處理應(yīng)用的一個(gè)關(guān)鍵的預(yù)處理功能。特別是基于微機(jī)電系統(tǒng)(MEMS) [1][2]的麥克風(fēng)陣列出現(xiàn)后,麥克風(fēng)陣列音頻定位方案引起科研企業(yè)和開發(fā)人員的廣泛關(guān)注。 目前業(yè)界正在使用MEMS麥克風(fēng)陣列子系統(tǒng)開發(fā)嵌入式音頻定位、自動(dòng)語音識別和自動(dòng)說話人識別解決方案,聲音識別定位是我們識別確認(rèn)他人身份的基本功能,當(dāng)我們聽到有人講話時(shí),會(huì)將頭轉(zhuǎn)向說話人,查看說話人。 音源定位是自動(dòng)語音識別和自動(dòng)說話人識別系統(tǒng)的一個(gè)重要環(huán)節(jié),對于提高語音識別系統(tǒng)的性能至關(guān)重要。麥克風(fēng)陣列可捕捉從不同方向傳來的聲音,通過算法運(yùn)算使麥克風(fēng)指向某一個(gè)特定方向,放大從該方向捕捉到的音頻信號,同時(shí)衰減從其它方向捕捉的音頻信號,整個(gè)動(dòng)作就像一個(gè)智能麥克風(fēng)。 下載全文: |