作者:M. Malcangi*, M. D’aria*, R. Sannino***, L. Spelgatti*** * 意大利米蘭大學(xué)計(jì)算機(jī)學(xué)系 ** 意大利米蘭比可卡大學(xué) *** 意法半導(dǎo)體(意大利Agrate)公司 摘要:在過(guò)去10年里,以人類語(yǔ)言和音頻信號(hào)為媒介的人機(jī)交互應(yīng)用在日常生活的作用越來(lái)越重要。設(shè)備本身必須充分利用不同的功能,才能取得最佳的性能,例如,音頻定位、自動(dòng)語(yǔ)音識(shí)別、自動(dòng)說(shuō)話人識(shí)別等。本文著重探討取得這些結(jié)果所需的算法和完整的嵌入式方案即MEMS麥克風(fēng)陣列所需的硬件架構(gòu)。 關(guān)鍵詞:音頻定位,語(yǔ)音識(shí)別,說(shuō)話人識(shí)別,MEMS麥克風(fēng) 1. 前言 自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音模式識(shí)別和說(shuō)話人識(shí)別及確認(rèn)等應(yīng)用對(duì)噪聲十分敏感,信源定位識(shí)別是音頻和語(yǔ)音信號(hào)捕捉處理應(yīng)用的一個(gè)關(guān)鍵的預(yù)處理功能。特別是基于微機(jī)電系統(tǒng)(MEMS) [1][2]的麥克風(fēng)陣列出現(xiàn)后,麥克風(fēng)陣列音頻定位方案引起科研企業(yè)和開(kāi)發(fā)人員的廣泛關(guān)注。 目前業(yè)界正在使用MEMS麥克風(fēng)陣列子系統(tǒng)開(kāi)發(fā)嵌入式音頻定位、自動(dòng)語(yǔ)音識(shí)別和自動(dòng)說(shuō)話人識(shí)別解決方案,聲音識(shí)別定位是我們識(shí)別確認(rèn)他人身份的基本功能,當(dāng)我們聽(tīng)到有人講話時(shí),會(huì)將頭轉(zhuǎn)向說(shuō)話人,查看說(shuō)話人。 音源定位是自動(dòng)語(yǔ)音識(shí)別和自動(dòng)說(shuō)話人識(shí)別系統(tǒng)的一個(gè)重要環(huán)節(jié),對(duì)于提高語(yǔ)音識(shí)別系統(tǒng)的性能至關(guān)重要。麥克風(fēng)陣列可捕捉從不同方向傳來(lái)的聲音,通過(guò)算法運(yùn)算使麥克風(fēng)指向某一個(gè)特定方向,放大從該方向捕捉到的音頻信號(hào),同時(shí)衰減從其它方向捕捉的音頻信號(hào),整個(gè)動(dòng)作就像一個(gè)智能麥克風(fēng)。 下載全文: |