国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

語(yǔ)音識(shí)別和互動(dòng)技術(shù)究竟何時(shí)成熟?

發(fā)布時(shí)間:2013-3-12 15:33    發(fā)布者:絕對(duì)好文
關(guān)鍵詞: 語(yǔ)音識(shí)別 , 語(yǔ)音
作者:語(yǔ)音技術(shù)大師

語(yǔ)音科學(xué)及技術(shù)是我博士論文所在的領(lǐng)域,目前在技術(shù)市場(chǎng)上又出現(xiàn)再次的熱潮,因此將我的部分拙見貢獻(xiàn)出來(lái)探討。這是復(fù)雜的領(lǐng)域,因此做法也有很多、一篇短文也只能提綱挈領(lǐng),觀點(diǎn)和做法不同之處,僅供參考、看官海涵。

近期我在一處的回帖里說(shuō):語(yǔ)音互動(dòng)技術(shù)的2大瓶頸是:(1)自然語(yǔ)言理解;(2)環(huán)境干擾音的抑制。這是不談及內(nèi)部技術(shù)、不講為什么的說(shuō)法,也是高度概括的說(shuō)法。下面稍微擴(kuò)展開來(lái)點(diǎn)說(shuō)。

語(yǔ)音識(shí)別技術(shù)本身的結(jié)構(gòu)和算法最近20年來(lái)進(jìn)展緩慢,本身沒(méi)有根本提升,學(xué)術(shù)界仍然在做艱難改進(jìn),對(duì)總體提升微小。像若干深入技術(shù)一樣,語(yǔ)音識(shí)別的技術(shù)仍然是以“算法”形勢(shì)存在,也就是說(shuō),尚未成為優(yōu)秀成熟穩(wěn)定的東西固化在芯片里面、讓工程上和產(chǎn)品里能夠方便使用。這套算法,主要包括對(duì)于輸入語(yǔ)音信號(hào)的“前處理”來(lái)提取最有用最濃縮的“特征”參數(shù),以及用這些參數(shù)來(lái)進(jìn)行的統(tǒng)計(jì)計(jì)算決策,這2個(gè)大的步驟。目標(biāo)是找到所說(shuō)“內(nèi)容”的最佳估計(jì),而不理睬語(yǔ)音中其它信息如說(shuō)話者身份、情緒等。而這統(tǒng)計(jì)決策的機(jī)理,最成功的系統(tǒng)采用的是2種數(shù)學(xué)結(jié)構(gòu)之一:“隱式馬爾科夫模型”(HMM)或“人工神經(jīng)網(wǎng)”(ANN),目前都仍在使用或改進(jìn)中。前者的結(jié)構(gòu)比較統(tǒng)一,簡(jiǎn)單說(shuō)就是將語(yǔ)音信號(hào)參數(shù)的出現(xiàn),作為一個(gè)隨機(jī)過(guò)程對(duì)外的“觀察”,因此也就有了一個(gè)觀察概率,另外還有一個(gè)馬爾科夫鏈自身各態(tài)間的“轉(zhuǎn)移概率”。實(shí)際使用包括“訓(xùn)練”和“識(shí)別”兩個(gè)過(guò)程,前者使用若干數(shù)學(xué)方法(稱為參數(shù)估計(jì)),從大量標(biāo)注的實(shí)際語(yǔ)音數(shù)據(jù)(叫做語(yǔ)料)中獲取信息,例如說(shuō)a的發(fā)音對(duì)應(yīng)怎樣一系列的觀察參數(shù),并將這些參數(shù)寫進(jìn)事先定好結(jié)構(gòu)的模型參數(shù)里。當(dāng)然了,這里需要面對(duì)大量不同的語(yǔ)音、不同說(shuō)話者、在不同上下文中的語(yǔ)音的特征,也就體現(xiàn)了“統(tǒng)計(jì)”的強(qiáng)大。而在識(shí)別時(shí),未知語(yǔ)音信號(hào),經(jīng)過(guò)同樣的參數(shù)提取,用來(lái)進(jìn)入部分語(yǔ)音模型中,進(jìn)行概率計(jì)算,而(一個(gè)短語(yǔ)的)總“分?jǐn)?shù)”最高對(duì)應(yīng)的那個(gè)序列的模型,就輸出為識(shí)別的結(jié)果,例如一個(gè)單詞序列,或一個(gè)控制指令等。人工神經(jīng)網(wǎng)的內(nèi)部結(jié)構(gòu)不是一種,而是很多種,最常用的有“帶時(shí)延的多層感知器”等,但總的原理仍然是將大量語(yǔ)料中的變化信息,存入固定結(jié)構(gòu)的模型參數(shù)中;而參數(shù)估計(jì)又各有不同的算法,尋求某種局部最優(yōu),最后用語(yǔ)音識(shí)別的實(shí)踐來(lái)驗(yàn)證其優(yōu)良與否。也有一些“自適應(yīng)”系統(tǒng),能夠在識(shí)別過(guò)程中自動(dòng)進(jìn)行對(duì)于自身參數(shù)的改善、作增量式的小規(guī)模再估計(jì),這也就是人們常說(shuō)的“自動(dòng)學(xué)習(xí)機(jī)理”。

以上這類基本模型,稱為“語(yǔ)音模型”。進(jìn)而,因?yàn)槿藗冋f(shuō)的每句話,是屬于一種語(yǔ)言(如中文)巨大單詞的可能組合之一,但這不是說(shuō)“任何組合”都是允許的。這里就用到我們?nèi)祟愖约簩W(xué)習(xí)語(yǔ)言時(shí)也在用的一類結(jié)構(gòu),叫做“語(yǔ)法”,就是規(guī)定哪些詞可以跟隨哪些詞。這樣,組合的可能就不那么繁多了,也就給大規(guī)模連續(xù)語(yǔ)音識(shí)別系統(tǒng)的“搜索”帶來(lái)的巨大的簡(jiǎn)化。在語(yǔ)音識(shí)別系統(tǒng)中的用來(lái)限定的語(yǔ)法,稱為“語(yǔ)言模型”;它本身也需要若干深層數(shù)學(xué)的指導(dǎo),才會(huì)達(dá)到能夠從大量語(yǔ)料、但仍然缺少部分?jǐn)?shù)據(jù)的語(yǔ)料中,高效正確地獲取模型參數(shù);并且,對(duì)于人類自然語(yǔ)言中的語(yǔ)法,采用規(guī)范語(yǔ)言(如編程語(yǔ)言)語(yǔ)法的方式多數(shù)不可行。工程上,通常語(yǔ)音識(shí)別器構(gòu)建時(shí),需要對(duì)所需不同場(chǎng)景,以及場(chǎng)景間的銜接,進(jìn)行人工的編輯,而場(chǎng)景中的每一個(gè)時(shí)段,對(duì)應(yīng)一些固定的語(yǔ)法,也就是說(shuō),到了那個(gè)“菜單”,系統(tǒng)僅能聽懂那一些單詞、以及那些單詞的那些固定序列。在識(shí)別這個(gè)層面,有若干模式,此處不一一列舉。總之,語(yǔ)音模型和語(yǔ)言模型,發(fā)源于科學(xué)家們對(duì)于自然的語(yǔ)言對(duì)話過(guò)程的部分理解,因此想要在計(jì)算機(jī)算法里學(xué)習(xí)使用這樣的過(guò)程,因此就使用了這些模型。但這些模型都基于實(shí)際人類的過(guò)程,做了大量的簡(jiǎn)化。所以說(shuō),在計(jì)算機(jī)算法中的語(yǔ)音識(shí)別,只是很少部分類比了人類的自然過(guò)程。說(shuō)實(shí)話,科學(xué)家對(duì)于人類自身如何理解語(yǔ)言,也遠(yuǎn)沒(méi)有達(dá)到完全的了解呢。但是,工程產(chǎn)品上已經(jīng)想要使用,不想再等了。

順便提一下早期的人工智能方法,也曾經(jīng)用來(lái)做語(yǔ)音識(shí)別,但是一直是失敗的。早期人工智能用于語(yǔ)音識(shí)別,是想找出所有“什么話對(duì)應(yīng)什么信號(hào)”的規(guī)則,然后在存儲(chǔ)了這樣大量規(guī)則的系統(tǒng)中,搜尋出未知信號(hào)屬于哪個(gè)語(yǔ)句。失敗的原因就是語(yǔ)音信號(hào)與內(nèi)容的對(duì)應(yīng)關(guān)系遠(yuǎn)不是一一對(duì)應(yīng)、其中混雜了太多來(lái)源的不確定性(同一句話,即使同一個(gè)人說(shuō)N次,也是N個(gè)非常不同的信號(hào),更何況不同人說(shuō)同樣話、在不同場(chǎng)景或環(huán)境說(shuō)等),因此完美的規(guī)則一直無(wú)法獲取、表達(dá)、或被搜索,而不完整的規(guī)則集帶來(lái)的只是在非常小規(guī)模語(yǔ)音識(shí)別中的滿意結(jié)果。所以,上述HMM等統(tǒng)計(jì)的方法才會(huì)勝出;不是因?yàn)樗訙?zhǔn)確,而正是因?yàn)槊鎸?duì)混雜的物理現(xiàn)實(shí),需要用不那么精確的模型和參數(shù),去保存只有統(tǒng)計(jì)意義下正確的信息,然后去做不那么黑白分明的“軟決策”,反而成功了。而統(tǒng)計(jì)方法是否會(huì)獲得最終的勝利,或者統(tǒng)計(jì)+規(guī)則的某種結(jié)合會(huì)勝出,也是少部分科學(xué)家仍在探索的方向。

目前的人工智能已經(jīng)前進(jìn)了很多,并且似乎仍有人認(rèn)為語(yǔ)音技術(shù)是由該領(lǐng)域所發(fā)展起來(lái)。需要澄清的就是,如今的主流語(yǔ)音識(shí)別機(jī)自然語(yǔ)言理解技術(shù),都不是早期人工智能的方法所支持。但如果僅從應(yīng)用角度上看,都是解決讓計(jì)算機(jī)看上去像人的行為這樣一個(gè)目標(biāo),那么語(yǔ)音可以納入人工智能范圍,但內(nèi)部結(jié)構(gòu)基礎(chǔ)完全不屬于同一類了。

世界上語(yǔ)音識(shí)別和互動(dòng)技術(shù)的發(fā)展,除了古代那些僅有概念(描述型的模型)的說(shuō)法以外,近代主要是由美國(guó)國(guó)防項(xiàng)目開始于上世紀(jì)80年代。早期的發(fā)展歷史很有意思,除了上述的規(guī)則-統(tǒng)計(jì)基本思想之爭(zhēng)而外,實(shí)際上絕大多數(shù)后來(lái)可行并主導(dǎo)的結(jié)構(gòu)和算法,都是在其支撐理論不成熟甚至完全不存在的情況下、由搞計(jì)算機(jī)的人“鼓搗”出來(lái)的。大家熟知的創(chuàng)新工場(chǎng)李開復(fù),就是當(dāng)年這些編程高手之一:他在CMU大學(xué)的博士論文后來(lái)被發(fā)表為一本書,而他是早期成功實(shí)現(xiàn)大規(guī)模連續(xù)語(yǔ)音識(shí)別的人之一。以后的15年左右,世界上有最多20幾處(大學(xué)或公司或研究所)的獨(dú)立團(tuán)隊(duì)在做語(yǔ)音識(shí)別;除了學(xué)術(shù)論文豐富,還有幾次的世界范圍的比賽:統(tǒng)一發(fā)送相同的識(shí)別任務(wù),在1-2周內(nèi)發(fā)回結(jié)果,包括準(zhǔn)確率、實(shí)時(shí)性、抗干擾性等逐漸深入的指標(biāo)。這一時(shí)期的擁有內(nèi)部語(yǔ)音識(shí)別技術(shù)、并以語(yǔ)音為主營(yíng)的公司也有10多家。但,根本來(lái)說(shuō)還是這一領(lǐng)域的復(fù)雜性艱難性,使他們當(dāng)時(shí)的商務(wù)目標(biāo)全都失敗了、都沒(méi)有靠語(yǔ)音賺到錢,多數(shù)公司都關(guān)閉了。其中留下來(lái)的最大和最好的一家是美國(guó)的nuance公司,及其若干合作方式。在某個(gè)階段,它除了提供最好最大的識(shí)別技術(shù)內(nèi)部的“引擎”,還為了下游公司方便開發(fā)應(yīng)用,提供很多“開發(fā)平臺(tái)”以及企業(yè)級(jí)應(yīng)用方案。在美國(guó)歐洲也都出現(xiàn)了電話網(wǎng)絡(luò)上成功運(yùn)營(yíng)的全語(yǔ)音互動(dòng)咨詢服務(wù)(自動(dòng)坐席)、面對(duì)一個(gè)有限的應(yīng)用范圍,如飛機(jī)航班、**信息等、達(dá)到了相當(dāng)自然的對(duì)話程度、并絕大多數(shù)時(shí)間能夠滿意地自動(dòng)應(yīng)答獲得信息。但最后的10多年來(lái),并沒(méi)有出現(xiàn)突破這些“有限范圍”服務(wù)局限的新發(fā)展。筆者了解到國(guó)內(nèi)幾年前的水平,同樣是采用國(guó)外大公司提供的語(yǔ)音引擎、開發(fā)平臺(tái),以及(國(guó)內(nèi)外)語(yǔ)音板卡硬件以運(yùn)行于電信級(jí)環(huán)境,擁有號(hào)稱幾百人開發(fā)團(tuán)隊(duì)的自動(dòng)坐席技術(shù)提供公司,所開發(fā)出的服務(wù),只是將現(xiàn)有“選A請(qǐng)按3”類的分類菜單操作,平移改為死板的語(yǔ)音指令輸入而已,沒(méi)有給用戶提供任何提升的體驗(yàn),自然也就沒(méi)有任何發(fā)展前景。可見一斑:即使是僅僅外部的應(yīng)用層工程開發(fā),語(yǔ)音互動(dòng)技術(shù)也還是需要相當(dāng)深入的多學(xué)科基礎(chǔ)的,否則就只能是對(duì)該技術(shù)的簡(jiǎn)單濫用了。值得一提的國(guó)內(nèi)科大訊飛公司多年的積累,在首先成功獲得語(yǔ)音合成(中文版)的市場(chǎng)主導(dǎo)地位以后,近年來(lái)也開發(fā)成功大型語(yǔ)音識(shí)別引擎及系統(tǒng)及方案。

上面雖然提到語(yǔ)音識(shí)別系統(tǒng)內(nèi)部所用的、用于限制范圍的語(yǔ)音模型,這還遠(yuǎn)不是走向類似人類那樣完全自然方式對(duì)話的工作。解決這個(gè)問(wèn)題的領(lǐng)域叫做“自然語(yǔ)言處理”(NLP),簡(jiǎn)單說(shuō)是在語(yǔ)音識(shí)別得出單詞序列以后、再進(jìn)行的“理解”并達(dá)到對(duì)話過(guò)程的控制引導(dǎo)、和直接執(zhí)行服務(wù)中的動(dòng)作的巨大研究領(lǐng)域;當(dāng)然了,識(shí)別出的單詞會(huì)有錯(cuò)誤,所以真實(shí)的系統(tǒng)不是這樣硬性分離識(shí)別和理解這2個(gè)步驟的。或者說(shuō),自然語(yǔ)言處理是處理“文字”的,而非直接處理語(yǔ)音格式的信息。這個(gè)領(lǐng)域與自動(dòng)翻譯系統(tǒng)有很大重疊。這里面也同樣有規(guī)則vs統(tǒng)計(jì)的基礎(chǔ)方法問(wèn)題,或者上升到哲學(xué)層面(這類的領(lǐng)域,哲學(xué)指導(dǎo)是真真實(shí)實(shí)需要的喔),就是人類“理性主義”和“經(jīng)驗(yàn)主義”的對(duì)決和融合。方興未艾、按下不提。

除了艱難的學(xué)術(shù)探索和內(nèi)核技術(shù)提升,蘋果的iris走的是另外的道路:應(yīng)用導(dǎo)向。也就是說(shuō),從應(yīng)用角度來(lái)連接現(xiàn)有模塊所能夠達(dá)到的最好程度、并佐以自家開發(fā)的模塊來(lái)共同構(gòu)筑對(duì)于能夠提升用戶總體體驗(yàn)的新服務(wù)。Iris被蘋果購(gòu)進(jìn)之前,據(jù)說(shuō)也是基于國(guó)防項(xiàng)目的一個(gè)實(shí)時(shí)信息管理軟件、并由幾個(gè)能人做成手機(jī)上的服務(wù)應(yīng)用。可以說(shuō),這里面語(yǔ)音識(shí)別和互動(dòng)僅僅是一小部分而已。總體目標(biāo)是一個(gè)能夠根據(jù)實(shí)時(shí)動(dòng)態(tài)廣泛的網(wǎng)絡(luò)上的信息,來(lái)提供信息服務(wù)的“個(gè)人助理”。也就是說(shuō),不僅它的語(yǔ)音識(shí)別和自然語(yǔ)言理解的計(jì)算,是基于云平臺(tái)上的巨大計(jì)算資源來(lái)達(dá)到更加精確,而所用信息也是通過(guò)云不斷采集和分析擴(kuò)展的。也就是說(shuō),你在手機(jī)上說(shuō)出的搜索單詞,是上傳到服務(wù)器的巨大主機(jī)上去進(jìn)行運(yùn)算、并獲取那里擁有的歷史及實(shí)時(shí)信息,再將識(shí)別或查詢結(jié)果傳回到手機(jī)上,所以手機(jī)只是這個(gè)過(guò)程的應(yīng)用界面和接口,使用時(shí)會(huì)因?yàn)榫W(wǎng)絡(luò)原因而略顯延遲。而它自身的自然語(yǔ)言處理模塊,也是結(jié)合進(jìn)了實(shí)時(shí)采集到的信息分析結(jié)果的特征,來(lái)更好地猜想用意、收集習(xí)慣歷史、引導(dǎo)對(duì)話等,是一種非常貼近實(shí)際的NLP開發(fā)方式。它的初步成果再一次說(shuō)明了:面對(duì)艱難的跨學(xué)科技術(shù),從應(yīng)用角度入手,而不是等待它發(fā)展到完美,是一條可行的道路。而這些“應(yīng)用層”中部分不得已添加的模塊,也許有些后來(lái)會(huì)成為對(duì)于語(yǔ)音識(shí)別和自然語(yǔ)言理解領(lǐng)域的、尚不完善理論的巨大補(bǔ)充和新的發(fā)展方向;就像早期語(yǔ)音識(shí)別技術(shù)被“大膽”的軟件工程師搞成功一樣。自然語(yǔ)言理解旨在令系統(tǒng)達(dá)到能夠接近人類自然方式的對(duì)話、并完成服務(wù)中的任務(wù)。所以,這個(gè)領(lǐng)域的發(fā)展,也同樣需要理論和實(shí)踐兩個(gè)方面的營(yíng)養(yǎng);會(huì)是未來(lái)幾十年的工作。這也是如今熱起來(lái)的云計(jì)算和“大數(shù)據(jù)”領(lǐng)域中很好的方向。

另外一個(gè)方面的挑戰(zhàn)是信號(hào)層面的干擾:當(dāng)語(yǔ)音互動(dòng)系統(tǒng),在用于遠(yuǎn)距離“免提”方式時(shí),MIC采集到的信號(hào)中會(huì)存在諸多嚴(yán)重干擾(嘴巴貼近MIC時(shí),環(huán)境干擾音相對(duì)會(huì)成為很小,因此除了超大強(qiáng)度的噪音,使用雙MIC對(duì)話都不再是問(wèn)題)。畢竟在很多環(huán)境的應(yīng)用中,人們還是希望能夠免提操作的,就像科幻電影中的那樣,人在室內(nèi)任何地方隨時(shí)發(fā)出語(yǔ)音指令、而系統(tǒng)回答,而不是手持一個(gè)裝置貼近嘴巴!首先,困難的來(lái)源是統(tǒng)計(jì)語(yǔ)音模型的參數(shù)對(duì)于所有外界變化都非常敏感,以至于“干凈”環(huán)境中訓(xùn)練出來(lái)的模型,直接用到了干擾環(huán)境中,識(shí)別率會(huì)大大下降到完全無(wú)用的程度。一個(gè)封閉環(huán)境(如客廳)中的干擾,主要包括環(huán)境噪音(加性)、回聲混響(卷積)、和競(jìng)爭(zhēng)語(yǔ)音(如電視機(jī)里的播音會(huì)干擾你的語(yǔ)音指令)這三種;當(dāng)然它們的組合就會(huì)更加困難,例如競(jìng)爭(zhēng)語(yǔ)音以及所需要識(shí)別的指令語(yǔ)音,同時(shí)也是經(jīng)過(guò)嚴(yán)重混響的。混響是指通過(guò)不同墻壁家具等平面反射而混合的信號(hào),其中包含諸多相位混亂版本信號(hào)的組合!雖然人類仍可以完全聽清,算法卻因?yàn)槿鄙龠@部分的知識(shí)能力而大大影響識(shí)別。目前對(duì)所有這些遠(yuǎn)距離信號(hào)的處理,基本采用進(jìn)入識(shí)別系統(tǒng)之前的“凈化”處理,多采用多個(gè)MIC的結(jié)構(gòu)。MIC本身和采集電路成本都很低,目前很多高檔手機(jī)都從2個(gè)到3個(gè)MIC了;但復(fù)雜的是它們后面的處理算法、遠(yuǎn)沒(méi)有達(dá)到成熟的程度。微軟的視頻互動(dòng)硬件Kinect系統(tǒng)(主要用于體感游戲中的視頻識(shí)別)中已經(jīng)集成了多個(gè)MIC和集成進(jìn)芯片的部分語(yǔ)音增強(qiáng)算法,而這顆芯片是一家以色列公司提供的專有技術(shù)。從外部開發(fā)算法的方向,粗略的分類目前主要有“盲源分離”(BSS)和“盲消混響”(BD),并且每個(gè)具體的算法、以及應(yīng)用方式,是與說(shuō)話者數(shù)量、移動(dòng)情況、MIC數(shù)量、位置和增強(qiáng)信號(hào)處理的目標(biāo)有關(guān);雖然已達(dá)到部分增強(qiáng)所要識(shí)別的語(yǔ)音的程度,但尚有巨大挑戰(zhàn)要面對(duì)。未來(lái)一旦某算法獲得成功、能夠在某個(gè)方面對(duì)于某類應(yīng)用提供關(guān)鍵性的提升,就可以進(jìn)一步將那個(gè)算法用快速DSP芯片來(lái)實(shí)現(xiàn),并在系統(tǒng)中集成進(jìn)這顆DSP,如此作為某個(gè)抗干擾語(yǔ)音互動(dòng)系統(tǒng)的初期系統(tǒng)架構(gòu)(硬件成本會(huì)有較大的增加)。值得一提的是:車載導(dǎo)航和娛樂(lè)系統(tǒng)中,語(yǔ)音互動(dòng)有著非常重要的作用,就是提高駕駛員駕車的安全性(連國(guó)內(nèi)也開始為開車打手機(jī)罰款了),但車?yán)锏脑胍粢彩沁@類系統(tǒng)的挑戰(zhàn)之一。所以同樣地,多MIC設(shè)置(MIC陣列)加處理算法是未來(lái)的方向。

大的投入或者說(shuō)持續(xù)的學(xué)術(shù)努力,在識(shí)別方面有引進(jìn)更多的基于語(yǔ)音分類(如方言習(xí)慣)的模型結(jié)構(gòu)細(xì)化、“深度連接神經(jīng)網(wǎng)”上的新結(jié)構(gòu)和新算法、將更加深入的統(tǒng)計(jì)信號(hào)處理方法(包括神經(jīng)網(wǎng)和機(jī)器學(xué)習(xí))用于上述的BSS和BD等。值得關(guān)注的一點(diǎn)是,由于神經(jīng)網(wǎng)類的算法要在并行硬件的計(jì)算結(jié)構(gòu)上才能夠更加高效地發(fā)揮作用、或者說(shuō)同樣的運(yùn)算資源成本,運(yùn)行本來(lái)比HMM更加復(fù)雜的基本結(jié)構(gòu)和算法,能夠達(dá)到比HMM更好的識(shí)別效果,因此一種新的硬件架構(gòu)GPU就開始被用于這類計(jì)算。GPU雖然本身是為圖形渲染而設(shè)計(jì),但近年來(lái)也已經(jīng)被廣泛用于科學(xué)計(jì)算,大到超級(jí)計(jì)算機(jī)、小至智能手機(jī)平板電腦(集成進(jìn)主應(yīng)用處理器的GPU核),其實(shí)都可以將部分處理用的運(yùn)算算法任務(wù),交予GPU來(lái)做,它正好提供大量簡(jiǎn)單單元的巨量并行連接。這也是未來(lái)方向,有些讓人感覺(jué)又可以開發(fā)一些此前運(yùn)算量太大、CPU或DSP都“自不量力”的信號(hào)處理復(fù)雜算法了。

語(yǔ)音識(shí)別和自然語(yǔ)言處理,這樣一個(gè)學(xué)科發(fā)展到如今,已經(jīng)到了巨大投入只能換來(lái)微小改善的階段、或者是在等待一個(gè)全新架構(gòu)的突破。。。

順便介紹一下:筆者曾親自開發(fā)出一款低成本、完全基于DSP的語(yǔ)音互動(dòng)+控制的硬件模塊,主要用于智能玩具的小詞匯量的語(yǔ)音互動(dòng),它也仍在發(fā)展中。已經(jīng)包含了一些簡(jiǎn)單的抗噪功能,并且能夠識(shí)別非特定人的連續(xù)語(yǔ)音(用戶無(wú)須訓(xùn)練、也無(wú)須提供語(yǔ)音資料,只提供文本腳本即可),以及包含一些簡(jiǎn)單初步的語(yǔ)音理解功能。這是完全“從頭”開發(fā)出來(lái)的東西,當(dāng)然不建議任何人都這樣從頭去做,我自己之所以做,部分是興趣使然、測(cè)試一下這樣做的可行性。結(jié)果是:一款僅幾十MIPS的DSP可以做到這樣,并且包含了對(duì)外控制等功能,提供了很大的可擴(kuò)展性,以及為下游用戶提供了產(chǎn)品開發(fā)的最大的方便(且不是死板語(yǔ)句的識(shí)別),應(yīng)該說(shuō),是業(yè)界中少有的成果了。它包括硬件模塊以及相應(yīng)的開發(fā)工具鏈,并為客戶提供設(shè)計(jì)協(xié)助。

如果任何公司或個(gè)人發(fā)燒友對(duì)于語(yǔ)音識(shí)別或互動(dòng)有興趣探討或開發(fā),可以隨時(shí)聯(lián)系我;在此處的提問(wèn)回帖我也會(huì)一一作答。這里一并建議:(1)想好自己的應(yīng)用,因?yàn)檎Z(yǔ)音技術(shù)尚沒(méi)有達(dá)到可以應(yīng)對(duì)“任何”應(yīng)用的程度,然后選好運(yùn)行平臺(tái),這是成本等問(wèn)題;(2)如果在電腦上、網(wǎng)絡(luò)上或者智能手機(jī)平板電腦上通過(guò)操作系統(tǒng)來(lái)運(yùn)行語(yǔ)音服務(wù)軟件,可以采用的語(yǔ)音識(shí)別內(nèi)部引擎有:微軟、IBM等,以及眾多被修改簡(jiǎn)化了的算法軟件:以開發(fā)SDK或者完整應(yīng)用程序的方式提供。因?yàn)檎Z(yǔ)音技術(shù)本身沒(méi)有給誰(shuí)賺錢,也就基本沒(méi)有人還繼續(xù)拿它賣錢了,所以免費(fèi)的就很多;但是識(shí)別質(zhì)量、運(yùn)行環(huán)境、接口、開發(fā)方式等,就要你自己搞明白了。如果它有個(gè)“演示”程序或免費(fèi)試用版什么的,可以逐漸做起來(lái)。如果有興趣更深入地去做,也可以使用劍橋的非常好的免費(fèi)軟件工具平臺(tái)HTK,但這個(gè)需要你自己建立所有模型、編輯和使用語(yǔ)料進(jìn)行訓(xùn)練等。如果做好了,識(shí)別率也是很高的;(3)即使你不做語(yǔ)音技術(shù)的內(nèi)部,對(duì)于它的外部邏輯,還是要有充分的理解,才好開始開發(fā)這些互動(dòng)應(yīng)用;也就是說(shuō),除了普通的軟件工程問(wèn)題,還要從“一個(gè)人如何對(duì)話”這方面去理解一下問(wèn)題本身,對(duì)于你的應(yīng)用軟件設(shè)計(jì)是非常重要的。這是因?yàn)椋Z(yǔ)音對(duì)話是人類太想當(dāng)然的動(dòng)作了,對(duì)于它的內(nèi)部動(dòng)作,例如“在哪個(gè)菜單”的設(shè)計(jì)考慮,就會(huì)忽略忘記;(4)如有理論或架構(gòu)上的切磋,非常歡迎!討論結(jié)果也許是未來(lái)博文的來(lái)源之一。

本文地址:http://m.qingdxww.cn/thread-111494-1-1.html     【打印本頁(yè)】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé);文章版權(quán)歸原作者及原出處所有,如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,我們將根據(jù)著作權(quán)人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評(píng)論 登錄 | 立即注冊(cè)

廠商推薦

  • Microchip視頻專區(qū)
  • Dev Tool Bits——使用MPLAB® Discover瀏覽資源
  • Dev Tool Bits——使用條件軟件斷點(diǎn)宏來(lái)節(jié)省時(shí)間和空間
  • Dev Tool Bits——使用DVRT協(xié)議查看項(xiàng)目中的數(shù)據(jù)
  • Dev Tool Bits——使用MPLAB® Data Visualizer進(jìn)行功率監(jiān)視
  • 貿(mào)澤電子(Mouser)專區(qū)

相關(guān)在線工具

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權(quán)所有   京ICP備16069177號(hào) | 京公網(wǎng)安備11010502021702
快速回復(fù) 返回頂部 返回列表
主站蜘蛛池模板: 国产精品久久精品牛牛影视 | 欧美在线视频二区 | 拍真实国产伦偷精品 | 四虎影视永久地址www成人污 | 青青草华人在线视频 | 欧美理论片在线观看一区二区 | 女老师中文字幕 | 成人看的羞羞视频免费观看 | 自拍国内| 91蜜臀视频 | 色视频网站在线观看 | 免费成人黄色 | 国产a不卡 | 91麻精品国产91久久久久 | 国产在线91区精品 | 久久尹人香蕉国产免费天天 | 蜜桃精品视频 | 国产一级视频在线 | 亚洲国产精品自产在线播放 | 搞黄网站在线观看 | 狠狠干导航 | 91国内视频在线观看 | 青青草国产精品久久 | 91精品国产免费久久 | aaa一区二区三区 | 羞羞视频官网 | 一级毛片免费观看不卡视频 | 伊人骚 | 一本久道热中字伊人 | 免费观看毛片视频 | 久草网视频在线 | 日本一区二区成人教育 | 99久久国产综合精品麻豆 | 国产香蕉精品视频在 | 日日天日日夜日日摸 | 亚洲欧美日韩三级 | 一区二区国产在线观看 | 亚洲欧美日韩天堂在线观看 | 亚洲欧美在线综合一区二区三区 | 艳母在线免费看影视网站 | 91精品久久国产青草 |