作者:保羅•戈拉塔 貿(mào)澤電子 這個圣誕節(jié)我其中一個女兒發(fā)起了一個家庭游戲叫作“聽音”,我們玩的非常的開心。它是“聽力挑戰(zhàn)”的一種新形式,目前也變得很流行了。一個人戴著耳機(jī),不僅能夠隔絕外界的聲音,同時耳機(jī)里也隨機(jī)發(fā)出一些聲音,另一個人面對戴耳機(jī)的人隨機(jī)朗讀卡片上的短語,比如“鴿子喜歡擁抱”,然后在沒有任何其他線索的情況下,戴耳機(jī)的玩家只能通過讀者嘴唇的變化來解讀“聽到”的短語。 這就像是一臺計算機(jī),玩家嘗試從各方面檢測這個短語的線索——盡管都不是很明顯。玩家用他們的視覺來“聽”并且破譯嘴唇的意思。這其實(shí)就是有趣的地方(當(dāng)然!),因?yàn)橥ㄟ^視覺線索聽到的信息與真正表達(dá)的意思相比是非常不同且隨機(jī)的。這個游戲利用了人類在聽覺和視覺方面調(diào)整的局限性。 計算機(jī)能夠做的更好嗎?現(xiàn)在的聊天機(jī)器人正在取得巨大的進(jìn)展,這些應(yīng)用采用音頻技術(shù)、人工智能(AI)機(jī)器學(xué)習(xí)的結(jié)合,它們在對話中會產(chǎn)生類似人類的推理和反應(yīng)。特別的是自然語言編程和神經(jīng)網(wǎng)絡(luò)的發(fā)展已經(jīng)融合在一起創(chuàng)建動態(tài)的人機(jī)交互方式,這為公司和終端用戶帶來了非常重大的潛在好處。 技術(shù)正在趨于一致 盡管人工智能、機(jī)器學(xué)習(xí)和音頻技術(shù)方面的發(fā)展已經(jīng)有一段時間了,但是直到最近它們才融合在一起使得人機(jī)交互成為可能。 人工智能和自然語言編程 人工智能(AI)正在通過可操作的洞察力改變計算的價值,從自動化和可擴(kuò)展的處理過程到具體的知識,通過解釋一個程序和一系列過程,人工智能讓不同的公司對于它們面對的市場有新的理解,產(chǎn)生新的價值并且快速部署決策。 在音頻方面,AI能夠以各種方式幫助人類,這是因?yàn)槲覀冊谌祟愓Z言和溝通中所使用的很多東西都可以被編程到機(jī)器中,通過自然語言處理(NLP)算法來計算出復(fù)雜的模式識別方案。目前設(shè)計師們正致力于讓機(jī)器能夠以雙向的方式使用自然人類語言,例如: • 機(jī)器聽取人類語言,機(jī)器能夠理解人類語言 • 機(jī)器理解人類語言,機(jī)器以人類語言作出回應(yīng) 實(shí)現(xiàn)雙向通信編程的一個挑戰(zhàn)是確保算法的格式化,能夠理解周圍的環(huán)境并且作出適當(dāng)?shù)捻憫?yīng),這被稱為“框架問題”——人類的處理過程是確保計算機(jī)具有實(shí)現(xiàn)某種功能所需要的指令。為了能夠作出適當(dāng)響應(yīng),機(jī)器必須被編程能夠理解明確的語言和正確的線索來理解表達(dá)背后的意圖和態(tài)度。 AI領(lǐng)域常用的編程語言包括Python、Java、Lisp、Prolog和C++。Python是一種非常流行的人工智能應(yīng)用程序編程的計算機(jī)語言,它采用模塊化的體系結(jié)構(gòu),專注于不同領(lǐng)域的特定功能,它為語義結(jié)構(gòu)定義了相對簡單的規(guī)則,它的一些框架比如NLTK、genism和Quepy,都是NLP和文本處理的理想選擇。這些定義如下: • NLTK是一系列Pyhton開源模塊的集合,支持自然語言工具箱。它提供了語言數(shù)據(jù)和詞匯資源,以便開發(fā)者能夠在常用的操作系統(tǒng)中開發(fā)NLP應(yīng)用和進(jìn)行文本分析 • Genism是一個能夠從文檔中提取語義含義的模塊,剔除了不必要的復(fù)雜度 • Quepy則致力于將自然語言問題轉(zhuǎn)換為從數(shù)據(jù)庫中查詢的問題 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò) 對于人類而言,學(xué)習(xí)是我們與生俱來的智力、生物成熟和經(jīng)驗(yàn)的自然組成部分。學(xué)習(xí)可以理解為不斷的自我提升,反饋可以用來不斷的調(diào)整以獲得更好的結(jié)果。通過人類大腦的研究——尤其是神經(jīng)網(wǎng)絡(luò)——研究人員已經(jīng)將強(qiáng)大的機(jī)器學(xué)習(xí)概念化,并將其轉(zhuǎn)化為人工智能。神經(jīng)網(wǎng)絡(luò)包括很多電子互連,它們能夠影響許多神經(jīng)元的集體反應(yīng),這意味著神經(jīng)網(wǎng)絡(luò)會影響更廣泛的行為,而不僅僅是單個神經(jīng)元。 與深度強(qiáng)化學(xué)習(xí)(或深度學(xué)習(xí))相結(jié)合,通過反饋目標(biāo)導(dǎo)向的表現(xiàn)可能是積極的或消極的,這些最近突破的創(chuàng)新性策略幫助解決了許多復(fù)雜的問題,包括理解和回應(yīng)自然人類語言和對話。一些產(chǎn)品比如Seeed Studio的谷歌AIY語音工具包、ReSpeaker 2-Mics Pi Hat等,它們是開始自然語言識別研究最有趣且快速的方法。 聊天機(jī)器人的興起 聊天機(jī)器人結(jié)合了音頻技術(shù)、AI和機(jī)器學(xué)習(xí),它們接收傳感器的輸入使用算法來確定輸入的信息,然后根據(jù)這些信息作出相應(yīng)的響應(yīng),同時它們也在根據(jù)不同的輸入信息進(jìn)行學(xué)習(xí)。聊天機(jī)器人是一種前瞻性的交流工具,目前被很多公司使用,包括亞馬遜、蘋果、Facebook和谷歌等,用來招待不同的客戶。通過機(jī)器學(xué)習(xí)和預(yù)測分析,聊天機(jī)器人正在不斷的提高。它們會感知、思考、決定以及行動。聊天機(jī)器人應(yīng)用疊加了人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)(見圖1)。 圖1:聊天機(jī)器人疊加了AI、機(jī)器學(xué)習(xí)和深度學(xué)習(xí) 公司采用聊天機(jī)器人來增加收入并且為客戶提供高水平的服務(wù)和安排無疑是明智的。現(xiàn)在的客戶對于技術(shù)都非常的熟悉,期望公司對他們的需求能夠快速有效的作出響應(yīng)。像Siri、Alexa和Cortana這樣的聊天機(jī)器人現(xiàn)在對于我們大多數(shù)人來說都已經(jīng)是家喻戶曉的名字了。工程師們?nèi)匀辉谂ψ屗鼈兡7潞统饺祟惖男袨楸憩F(xiàn),通過動態(tài)的交互不斷的提升聊天機(jī)器人的智力,讓它們更加的人性化和吸引人。我們的目標(biāo)是讓計算機(jī)在如下領(lǐng)域具有類似人類的能力: • 文本轉(zhuǎn)換成語音,語音轉(zhuǎn)換成文本 • 語調(diào)分析和個性化識別 • 自然語言分類和語言翻譯 • 虛擬代理和會話編程 深度學(xué)習(xí)AI,比如谷歌開發(fā)的DeepMind,使得計算機(jī)聽起來不再像是計算機(jī)了。相反計算機(jī)可以合成聲音進(jìn)行現(xiàn)實(shí)的交談,從而通過了圖形測試——這意味著它們的反應(yīng)對于我們而言是如此的真實(shí),以至于我們無法分辨出它們是計算機(jī)。深度學(xué)習(xí)取得的這些結(jié)果是因?yàn)樘幚砹舜罅康奈谋緦υ挷⑶覐倪@些對話中學(xué)習(xí)人類語言和溝通。因?yàn)锳I可以通過計算處理如此多的文本對話信息,因此它會建立一個足夠大且高效的經(jīng)驗(yàn)框架,從這個框架中得出結(jié)論然后對人類的對話作出適當(dāng)?shù)幕貞?yīng)。 與人工智能學(xué)習(xí)溝通會話相似,它也可以學(xué)習(xí)使用獨(dú)特的人類聲音和感情來回應(yīng)。除了把聲音信息存儲到記憶中,人工神經(jīng)網(wǎng)絡(luò)還會處理成千上萬個小時的人類聲音,這個網(wǎng)絡(luò)還會推斷出一些具體的細(xì)節(jié)來模仿自然的人類語言。這使得聊天機(jī)器人可以借助人工智能來選擇適合這個場合聲音和交流方式。人工智能只需要幾分鐘的時間就能將語音數(shù)據(jù)復(fù)制到語音中而不用管語音模式是怎樣的。 聊天機(jī)器人可以使用會話AI提供更個性化的服務(wù),聊天機(jī)器人采用更加人性化的自然語言會話方式,接收和反饋高質(zhì)量的信息,這預(yù)計會帶來更多的銷售機(jī)會和客戶滿意度。聊天機(jī)器人被設(shè)定為始終提供最高水平的客戶服務(wù)。 聊天機(jī)器人是不在意交流媒介的:它們不會介意你是通過電話、電子郵件還是社交媒體應(yīng)用程序與它們溝通。在每個實(shí)例中,它都被設(shè)定為會作出合適的回應(yīng)。聊天機(jī)器人是一款基于數(shù)字的、面向客戶的產(chǎn)品,它利用技術(shù)和數(shù)字世界的優(yōu)勢正在改變我們的業(yè)務(wù)環(huán)境,聊天機(jī)器人技術(shù)在某些業(yè)務(wù)方面也是合適的,包括銷售、市場營銷、客戶服務(wù)和其他類似的場景。在某些場景聊天機(jī)器人已經(jīng)開始使用數(shù)字技術(shù)與公司進(jìn)行溝通,它們也是公司與客戶之間進(jìn)行溝通的一種非常好的選擇。 聊天機(jī)器人面臨的最重要的問題之一是幫助它們解決特定的用戶需求。因?yàn)槿祟愂欠浅?fù)雜的,所以要求聊天機(jī)器人能夠隨時理解用戶的請求,即使這個請求是不斷變化的。這需要聊天機(jī)器人能夠理解人類語言的細(xì)微差別,從而有效的避免差錯。 通過與預(yù)測分析技術(shù)相結(jié)合,優(yōu)秀的人工智能聊天機(jī)器人似乎可以通過預(yù)測對話的方向來解讀與它們互動的人的思想。這意味著聊天機(jī)器人將會進(jìn)化,它們將會更專注于制定建議和作出預(yù)測——使它們能夠提升能力,會采取某些具體行動。實(shí)現(xiàn)更加智能的聊天機(jī)器人是一項(xiàng)持續(xù)不斷的挑戰(zhàn),設(shè)計師們正在努力使它們在與人類互動和需求的意識上達(dá)成一致性的反應(yīng)。 總結(jié):對話的形成 人工智能、機(jī)器學(xué)習(xí)和音頻技術(shù)的發(fā)展已經(jīng)不斷的融合在一起,通過聊天機(jī)器人實(shí)現(xiàn)了人類一樣的人機(jī)交互應(yīng)用。具備識別和解釋語音和音調(diào)的能力,聊天機(jī)器人正在成為提供基本客戶服務(wù)和類似交互的一種虛擬代理——對語音輸入以及所暗示的信息具備一定的理解、響應(yīng)以及學(xué)習(xí)的能力。 然而要做出適當(dāng)?shù)幕貞?yīng),機(jī)器必須被編程能夠理解明確的語言信息和正確的暗示信息,從而了解表達(dá)背后的意圖和態(tài)度。這是人機(jī)交互方面自然語言編程的進(jìn)步,使兩者間的雙向通信取得了進(jìn)展。神經(jīng)網(wǎng)絡(luò)也是一個關(guān)鍵的進(jìn)步,它使得機(jī)器能夠從以前的交互中不斷學(xué)習(xí)。 我期待著未來某一天我的電腦能夠幫助我寫技術(shù)文章。希望從它嘴里說出的第一句話不是:“我認(rèn)為那樣是不成熟的、業(yè)余的、愚蠢的,我建議你該這樣寫……”,將來某一天只要它具備立刻能夠讀懂我嘴唇動作的能力,人們就不會像玩“聽音”游戲那樣嘲笑我了。 原文鏈接:https://www.mouser.com/applicati ... d-machine-learning/ |