作者:保羅•戈拉塔 貿(mào)澤電子 這個(gè)圣誕節(jié)我其中一個(gè)女兒發(fā)起了一個(gè)家庭游戲叫作“聽音”,我們玩的非常的開心。它是“聽力挑戰(zhàn)”的一種新形式,目前也變得很流行了。一個(gè)人戴著耳機(jī),不僅能夠隔絕外界的聲音,同時(shí)耳機(jī)里也隨機(jī)發(fā)出一些聲音,另一個(gè)人面對(duì)戴耳機(jī)的人隨機(jī)朗讀卡片上的短語(yǔ),比如“鴿子喜歡擁抱”,然后在沒有任何其他線索的情況下,戴耳機(jī)的玩家只能通過讀者嘴唇的變化來(lái)解讀“聽到”的短語(yǔ)。 這就像是一臺(tái)計(jì)算機(jī),玩家嘗試從各方面檢測(cè)這個(gè)短語(yǔ)的線索——盡管都不是很明顯。玩家用他們的視覺來(lái)“聽”并且破譯嘴唇的意思。這其實(shí)就是有趣的地方(當(dāng)然!),因?yàn)橥ㄟ^視覺線索聽到的信息與真正表達(dá)的意思相比是非常不同且隨機(jī)的。這個(gè)游戲利用了人類在聽覺和視覺方面調(diào)整的局限性。 計(jì)算機(jī)能夠做的更好嗎?現(xiàn)在的聊天機(jī)器人正在取得巨大的進(jìn)展,這些應(yīng)用采用音頻技術(shù)、人工智能(AI)機(jī)器學(xué)習(xí)的結(jié)合,它們?cè)趯?duì)話中會(huì)產(chǎn)生類似人類的推理和反應(yīng)。特別的是自然語(yǔ)言編程和神經(jīng)網(wǎng)絡(luò)的發(fā)展已經(jīng)融合在一起創(chuàng)建動(dòng)態(tài)的人機(jī)交互方式,這為公司和終端用戶帶來(lái)了非常重大的潛在好處。 技術(shù)正在趨于一致 盡管人工智能、機(jī)器學(xué)習(xí)和音頻技術(shù)方面的發(fā)展已經(jīng)有一段時(shí)間了,但是直到最近它們才融合在一起使得人機(jī)交互成為可能。 人工智能和自然語(yǔ)言編程 人工智能(AI)正在通過可操作的洞察力改變計(jì)算的價(jià)值,從自動(dòng)化和可擴(kuò)展的處理過程到具體的知識(shí),通過解釋一個(gè)程序和一系列過程,人工智能讓不同的公司對(duì)于它們面對(duì)的市場(chǎng)有新的理解,產(chǎn)生新的價(jià)值并且快速部署決策。 在音頻方面,AI能夠以各種方式幫助人類,這是因?yàn)槲覀冊(cè)谌祟愓Z(yǔ)言和溝通中所使用的很多東西都可以被編程到機(jī)器中,通過自然語(yǔ)言處理(NLP)算法來(lái)計(jì)算出復(fù)雜的模式識(shí)別方案。目前設(shè)計(jì)師們正致力于讓機(jī)器能夠以雙向的方式使用自然人類語(yǔ)言,例如: • 機(jī)器聽取人類語(yǔ)言,機(jī)器能夠理解人類語(yǔ)言 • 機(jī)器理解人類語(yǔ)言,機(jī)器以人類語(yǔ)言作出回應(yīng) 實(shí)現(xiàn)雙向通信編程的一個(gè)挑戰(zhàn)是確保算法的格式化,能夠理解周圍的環(huán)境并且作出適當(dāng)?shù)捻憫?yīng),這被稱為“框架問題”——人類的處理過程是確保計(jì)算機(jī)具有實(shí)現(xiàn)某種功能所需要的指令。為了能夠作出適當(dāng)響應(yīng),機(jī)器必須被編程能夠理解明確的語(yǔ)言和正確的線索來(lái)理解表達(dá)背后的意圖和態(tài)度。 AI領(lǐng)域常用的編程語(yǔ)言包括Python、Java、Lisp、Prolog和C++。Python是一種非常流行的人工智能應(yīng)用程序編程的計(jì)算機(jī)語(yǔ)言,它采用模塊化的體系結(jié)構(gòu),專注于不同領(lǐng)域的特定功能,它為語(yǔ)義結(jié)構(gòu)定義了相對(duì)簡(jiǎn)單的規(guī)則,它的一些框架比如NLTK、genism和Quepy,都是NLP和文本處理的理想選擇。這些定義如下: • NLTK是一系列Pyhton開源模塊的集合,支持自然語(yǔ)言工具箱。它提供了語(yǔ)言數(shù)據(jù)和詞匯資源,以便開發(fā)者能夠在常用的操作系統(tǒng)中開發(fā)NLP應(yīng)用和進(jìn)行文本分析 • Genism是一個(gè)能夠從文檔中提取語(yǔ)義含義的模塊,剔除了不必要的復(fù)雜度 • Quepy則致力于將自然語(yǔ)言問題轉(zhuǎn)換為從數(shù)據(jù)庫(kù)中查詢的問題 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò) 對(duì)于人類而言,學(xué)習(xí)是我們與生俱來(lái)的智力、生物成熟和經(jīng)驗(yàn)的自然組成部分。學(xué)習(xí)可以理解為不斷的自我提升,反饋可以用來(lái)不斷的調(diào)整以獲得更好的結(jié)果。通過人類大腦的研究——尤其是神經(jīng)網(wǎng)絡(luò)——研究人員已經(jīng)將強(qiáng)大的機(jī)器學(xué)習(xí)概念化,并將其轉(zhuǎn)化為人工智能。神經(jīng)網(wǎng)絡(luò)包括很多電子互連,它們能夠影響許多神經(jīng)元的集體反應(yīng),這意味著神經(jīng)網(wǎng)絡(luò)會(huì)影響更廣泛的行為,而不僅僅是單個(gè)神經(jīng)元。 與深度強(qiáng)化學(xué)習(xí)(或深度學(xué)習(xí))相結(jié)合,通過反饋目標(biāo)導(dǎo)向的表現(xiàn)可能是積極的或消極的,這些最近突破的創(chuàng)新性策略幫助解決了許多復(fù)雜的問題,包括理解和回應(yīng)自然人類語(yǔ)言和對(duì)話。一些產(chǎn)品比如Seeed Studio的谷歌AIY語(yǔ)音工具包、ReSpeaker 2-Mics Pi Hat等,它們是開始自然語(yǔ)言識(shí)別研究最有趣且快速的方法。 聊天機(jī)器人的興起 聊天機(jī)器人結(jié)合了音頻技術(shù)、AI和機(jī)器學(xué)習(xí),它們接收傳感器的輸入使用算法來(lái)確定輸入的信息,然后根據(jù)這些信息作出相應(yīng)的響應(yīng),同時(shí)它們也在根據(jù)不同的輸入信息進(jìn)行學(xué)習(xí)。聊天機(jī)器人是一種前瞻性的交流工具,目前被很多公司使用,包括亞馬遜、蘋果、Facebook和谷歌等,用來(lái)招待不同的客戶。通過機(jī)器學(xué)習(xí)和預(yù)測(cè)分析,聊天機(jī)器人正在不斷的提高。它們會(huì)感知、思考、決定以及行動(dòng)。聊天機(jī)器人應(yīng)用疊加了人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)(見圖1)。 圖1:聊天機(jī)器人疊加了AI、機(jī)器學(xué)習(xí)和深度學(xué)習(xí) 公司采用聊天機(jī)器人來(lái)增加收入并且為客戶提供高水平的服務(wù)和安排無(wú)疑是明智的。現(xiàn)在的客戶對(duì)于技術(shù)都非常的熟悉,期望公司對(duì)他們的需求能夠快速有效的作出響應(yīng)。像Siri、Alexa和Cortana這樣的聊天機(jī)器人現(xiàn)在對(duì)于我們大多數(shù)人來(lái)說都已經(jīng)是家喻戶曉的名字了。工程師們?nèi)匀辉谂ψ屗鼈兡7潞统饺祟惖男袨楸憩F(xiàn),通過動(dòng)態(tài)的交互不斷的提升聊天機(jī)器人的智力,讓它們更加的人性化和吸引人。我們的目標(biāo)是讓計(jì)算機(jī)在如下領(lǐng)域具有類似人類的能力: • 文本轉(zhuǎn)換成語(yǔ)音,語(yǔ)音轉(zhuǎn)換成文本 • 語(yǔ)調(diào)分析和個(gè)性化識(shí)別 • 自然語(yǔ)言分類和語(yǔ)言翻譯 • 虛擬代理和會(huì)話編程 深度學(xué)習(xí)AI,比如谷歌開發(fā)的DeepMind,使得計(jì)算機(jī)聽起來(lái)不再像是計(jì)算機(jī)了。相反計(jì)算機(jī)可以合成聲音進(jìn)行現(xiàn)實(shí)的交談,從而通過了圖形測(cè)試——這意味著它們的反應(yīng)對(duì)于我們而言是如此的真實(shí),以至于我們無(wú)法分辨出它們是計(jì)算機(jī)。深度學(xué)習(xí)取得的這些結(jié)果是因?yàn)樘幚砹舜罅康奈谋緦?duì)話并且從這些對(duì)話中學(xué)習(xí)人類語(yǔ)言和溝通。因?yàn)锳I可以通過計(jì)算處理如此多的文本對(duì)話信息,因此它會(huì)建立一個(gè)足夠大且高效的經(jīng)驗(yàn)框架,從這個(gè)框架中得出結(jié)論然后對(duì)人類的對(duì)話作出適當(dāng)?shù)幕貞?yīng)。 與人工智能學(xué)習(xí)溝通會(huì)話相似,它也可以學(xué)習(xí)使用獨(dú)特的人類聲音和感情來(lái)回應(yīng)。除了把聲音信息存儲(chǔ)到記憶中,人工神經(jīng)網(wǎng)絡(luò)還會(huì)處理成千上萬(wàn)個(gè)小時(shí)的人類聲音,這個(gè)網(wǎng)絡(luò)還會(huì)推斷出一些具體的細(xì)節(jié)來(lái)模仿自然的人類語(yǔ)言。這使得聊天機(jī)器人可以借助人工智能來(lái)選擇適合這個(gè)場(chǎng)合聲音和交流方式。人工智能只需要幾分鐘的時(shí)間就能將語(yǔ)音數(shù)據(jù)復(fù)制到語(yǔ)音中而不用管語(yǔ)音模式是怎樣的。 聊天機(jī)器人可以使用會(huì)話AI提供更個(gè)性化的服務(wù),聊天機(jī)器人采用更加人性化的自然語(yǔ)言會(huì)話方式,接收和反饋高質(zhì)量的信息,這預(yù)計(jì)會(huì)帶來(lái)更多的銷售機(jī)會(huì)和客戶滿意度。聊天機(jī)器人被設(shè)定為始終提供最高水平的客戶服務(wù)。 聊天機(jī)器人是不在意交流媒介的:它們不會(huì)介意你是通過電話、電子郵件還是社交媒體應(yīng)用程序與它們溝通。在每個(gè)實(shí)例中,它都被設(shè)定為會(huì)作出合適的回應(yīng)。聊天機(jī)器人是一款基于數(shù)字的、面向客戶的產(chǎn)品,它利用技術(shù)和數(shù)字世界的優(yōu)勢(shì)正在改變我們的業(yè)務(wù)環(huán)境,聊天機(jī)器人技術(shù)在某些業(yè)務(wù)方面也是合適的,包括銷售、市場(chǎng)營(yíng)銷、客戶服務(wù)和其他類似的場(chǎng)景。在某些場(chǎng)景聊天機(jī)器人已經(jīng)開始使用數(shù)字技術(shù)與公司進(jìn)行溝通,它們也是公司與客戶之間進(jìn)行溝通的一種非常好的選擇。 聊天機(jī)器人面臨的最重要的問題之一是幫助它們解決特定的用戶需求。因?yàn)槿祟愂欠浅?fù)雜的,所以要求聊天機(jī)器人能夠隨時(shí)理解用戶的請(qǐng)求,即使這個(gè)請(qǐng)求是不斷變化的。這需要聊天機(jī)器人能夠理解人類語(yǔ)言的細(xì)微差別,從而有效的避免差錯(cuò)。 通過與預(yù)測(cè)分析技術(shù)相結(jié)合,優(yōu)秀的人工智能聊天機(jī)器人似乎可以通過預(yù)測(cè)對(duì)話的方向來(lái)解讀與它們互動(dòng)的人的思想。這意味著聊天機(jī)器人將會(huì)進(jìn)化,它們將會(huì)更專注于制定建議和作出預(yù)測(cè)——使它們能夠提升能力,會(huì)采取某些具體行動(dòng)。實(shí)現(xiàn)更加智能的聊天機(jī)器人是一項(xiàng)持續(xù)不斷的挑戰(zhàn),設(shè)計(jì)師們正在努力使它們?cè)谂c人類互動(dòng)和需求的意識(shí)上達(dá)成一致性的反應(yīng)。 總結(jié):對(duì)話的形成 人工智能、機(jī)器學(xué)習(xí)和音頻技術(shù)的發(fā)展已經(jīng)不斷的融合在一起,通過聊天機(jī)器人實(shí)現(xiàn)了人類一樣的人機(jī)交互應(yīng)用。具備識(shí)別和解釋語(yǔ)音和音調(diào)的能力,聊天機(jī)器人正在成為提供基本客戶服務(wù)和類似交互的一種虛擬代理——對(duì)語(yǔ)音輸入以及所暗示的信息具備一定的理解、響應(yīng)以及學(xué)習(xí)的能力。 然而要做出適當(dāng)?shù)幕貞?yīng),機(jī)器必須被編程能夠理解明確的語(yǔ)言信息和正確的暗示信息,從而了解表達(dá)背后的意圖和態(tài)度。這是人機(jī)交互方面自然語(yǔ)言編程的進(jìn)步,使兩者間的雙向通信取得了進(jìn)展。神經(jīng)網(wǎng)絡(luò)也是一個(gè)關(guān)鍵的進(jìn)步,它使得機(jī)器能夠從以前的交互中不斷學(xué)習(xí)。 我期待著未來(lái)某一天我的電腦能夠幫助我寫技術(shù)文章。希望從它嘴里說出的第一句話不是:“我認(rèn)為那樣是不成熟的、業(yè)余的、愚蠢的,我建議你該這樣寫……”,將來(lái)某一天只要它具備立刻能夠讀懂我嘴唇動(dòng)作的能力,人們就不會(huì)像玩“聽音”游戲那樣嘲笑我了。 原文鏈接:https://www.mouser.com/applicati ... d-machine-learning/ |