聊天機器人：音頻，AI和機器學習

發布時間：2018-7-4 11:32 發布者：eechina

作者：保羅•戈拉塔貿澤電子

這個圣誕節我其中一個女兒發起了一個家庭游戲叫作“聽音”，我們玩的非常的開心。它是“聽力挑戰”的一種新形式，目前也變得很流行了。一個人戴著耳機，不僅能夠隔絕外界的聲音，同時耳機里也隨機發出一些聲音，另一個人面對戴耳機的人隨機朗讀卡片上的短語，比如“鴿子喜歡擁抱”，然后在沒有任何其他線索的情況下，戴耳機的玩家只能通過讀者嘴唇的變化來解讀“聽到”的短語。

這就像是一臺計算機，玩家嘗試從各方面檢測這個短語的線索——盡管都不是很明顯。玩家用他們的視覺來“聽”并且破譯嘴唇的意思。這其實就是有趣的地方（當然！），因為通過視覺線索聽到的信息與真正表達的意思相比是非常不同且隨機的。這個游戲利用了人類在聽覺和視覺方面調整的局限性。

計算機能夠做的更好嗎？現在的聊天機器人正在取得巨大的進展，這些應用采用音頻技術、人工智能（AI）機器學習的結合，它們在對話中會產生類似人類的推理和反應。特別的是自然語言編程和神經網絡的發展已經融合在一起創建動態的人機交互方式，這為公司和終端用戶帶來了非常重大的潛在好處。

技術正在趨于一致

盡管人工智能、機器學習和音頻技術方面的發展已經有一段時間了，但是直到最近它們才融合在一起使得人機交互成為可能。

人工智能和自然語言編程

人工智能（AI）正在通過可操作的洞察力改變計算的價值，從自動化和可擴展的處理過程到具體的知識，通過解釋一個程序和一系列過程，人工智能讓不同的公司對于它們面對的市場有新的理解，產生新的價值并且快速部署決策。

在音頻方面，AI能夠以各種方式幫助人類，這是因為我們在人類語言和溝通中所使用的很多東西都可以被編程到機器中，通過自然語言處理（NLP）算法來計算出復雜的模式識別方案。目前設計師們正致力于讓機器能夠以雙向的方式使用自然人類語言，例如：

• 機器聽取人類語言，機器能夠理解人類語言
• 機器理解人類語言，機器以人類語言作出回應

實現雙向通信編程的一個挑戰是確保算法的格式化，能夠理解周圍的環境并且作出適當的響應，這被稱為“框架問題”——人類的處理過程是確保計算機具有實現某種功能所需要的指令。為了能夠作出適當響應，機器必須被編程能夠理解明確的語言和正確的線索來理解表達背后的意圖和態度。

AI領域常用的編程語言包括Python、Java、Lisp、Prolog和C++。Python是一種非常流行的人工智能應用程序編程的計算機語言，它采用模塊化的體系結構，專注于不同領域的特定功能，它為語義結構定義了相對簡單的規則，它的一些框架比如NLTK、genism和Quepy，都是NLP和文本處理的理想選擇。這些定義如下：

• NLTK是一系列Pyhton開源模塊的集合，支持自然語言工具箱。它提供了語言數據和詞匯資源，以便開發者能夠在常用的操作系統中開發NLP應用和進行文本分析
• Genism是一個能夠從文檔中提取語義含義的模塊，剔除了不必要的復雜度
• Quepy則致力于將自然語言問題轉換為從數據庫中查詢的問題

機器學習和神經網絡

對于人類而言，學習是我們與生俱來的智力、生物成熟和經驗的自然組成部分。學習可以理解為不斷的自我提升，反饋可以用來不斷的調整以獲得更好的結果。通過人類大腦的研究——尤其是神經網絡——研究人員已經將強大的機器學習概念化，并將其轉化為人工智能。神經網絡包括很多電子互連，它們能夠影響許多神經元的集體反應，這意味著神經網絡會影響更廣泛的行為，而不僅僅是單個神經元。

與深度強化學習（或深度學習）相結合，通過反饋目標導向的表現可能是積極的或消極的，這些最近突破的創新性策略幫助解決了許多復雜的問題，包括理解和回應自然人類語言和對話。一些產品比如Seeed Studio的谷歌AIY語音工具包、ReSpeaker 2-Mics Pi Hat等，它們是開始自然語言識別研究最有趣且快速的方法。

聊天機器人的興起

聊天機器人結合了音頻技術、AI和機器學習，它們接收傳感器的輸入使用算法來確定輸入的信息，然后根據這些信息作出相應的響應，同時它們也在根據不同的輸入信息進行學習。聊天機器人是一種前瞻性的交流工具，目前被很多公司使用，包括亞馬遜、蘋果、Facebook和谷歌等，用來招待不同的客戶。通過機器學習和預測分析，聊天機器人正在不斷的提高。它們會感知、思考、決定以及行動。聊天機器人應用疊加了人工智能、機器學習和深度學習（見圖1）。

圖1：聊天機器人疊加了AI、機器學習和深度學習

公司采用聊天機器人來增加收入并且為客戶提供高水平的服務和安排無疑是明智的�，F在的客戶對于技術都非常的熟悉，期望公司對他們的需求能夠快速有效的作出響應。像Siri、Alexa和Cortana這樣的聊天機器人現在對于我們大多數人來說都已經是家喻戶曉的名字了。工程師們仍然在努力讓它們模仿和超越人類的行為表現，通過動態的交互不斷的提升聊天機器人的智力，讓它們更加的人性化和吸引人。我們的目標是讓計算機在如下領域具有類似人類的能力：

• 文本轉換成語音，語音轉換成文本
• 語調分析和個性化識別
• 自然語言分類和語言翻譯
• 虛擬代理和會話編程

深度學習AI，比如谷歌開發的DeepMind，使得計算機聽起來不再像是計算機了。相反計算機可以合成聲音進行現實的交談，從而通過了圖形測試——這意味著它們的反應對于我們而言是如此的真實，以至于我們無法分辨出它們是計算機。深度學習取得的這些結果是因為處理了大量的文本對話并且從這些對話中學習人類語言和溝通。因為AI可以通過計算處理如此多的文本對話信息，因此它會建立一個足夠大且高效的經驗框架，從這個框架中得出結論然后對人類的對話作出適當的回應。

與人工智能學習溝通會話相似，它也可以學習使用獨特的人類聲音和感情來回應。除了把聲音信息存儲到記憶中，人工神經網絡還會處理成千上萬個小時的人類聲音，這個網絡還會推斷出一些具體的細節來模仿自然的人類語言。這使得聊天機器人可以借助人工智能來選擇適合這個場合聲音和交流方式。人工智能只需要幾分鐘的時間就能將語音數據復制到語音中而不用管語音模式是怎樣的。

聊天機器人可以使用會話AI提供更個性化的服務，聊天機器人采用更加人性化的自然語言會話方式，接收和反饋高質量的信息，這預計會帶來更多的銷售機會和客戶滿意度。聊天機器人被設定為始終提供最高水平的客戶服務。

聊天機器人是不在意交流媒介的:它們不會介意你是通過電話、電子郵件還是社交媒體應用程序與它們溝通。在每個實例中，它都被設定為會作出合適的回應。聊天機器人是一款基于數字的、面向客戶的產品，它利用技術和數字世界的優勢正在改變我們的業務環境，聊天機器人技術在某些業務方面也是合適的，包括銷售、市場營銷、客戶服務和其他類似的場景。在某些場景聊天機器人已經開始使用數字技術與公司進行溝通，它們也是公司與客戶之間進行溝通的一種非常好的選擇。

聊天機器人面臨的最重要的問題之一是幫助它們解決特定的用戶需求。因為人類是非常復雜的，所以要求聊天機器人能夠隨時理解用戶的請求，即使這個請求是不斷變化的。這需要聊天機器人能夠理解人類語言的細微差別，從而有效的避免差錯。

通過與預測分析技術相結合，優秀的人工智能聊天機器人似乎可以通過預測對話的方向來解讀與它們互動的人的思想。這意味著聊天機器人將會進化，它們將會更專注于制定建議和作出預測——使它們能夠提升能力，會采取某些具體行動。實現更加智能的聊天機器人是一項持續不斷的挑戰，設計師們正在努力使它們在與人類互動和需求的意識上達成一致性的反應。

總結：對話的形成

人工智能、機器學習和音頻技術的發展已經不斷的融合在一起，通過聊天機器人實現了人類一樣的人機交互應用。具備識別和解釋語音和音調的能力，聊天機器人正在成為提供基本客戶服務和類似交互的一種虛擬代理——對語音輸入以及所暗示的信息具備一定的理解、響應以及學習的能力。

然而要做出適當的回應，機器必須被編程能夠理解明確的語言信息和正確的暗示信息，從而了解表達背后的意圖和態度。這是人機交互方面自然語言編程的進步，使兩者間的雙向通信取得了進展。神經網絡也是一個關鍵的進步，它使得機器能夠從以前的交互中不斷學習。

我期待著未來某一天我的電腦能夠幫助我寫技術文章。希望從它嘴里說出的第一句話不是:“我認為那樣是不成熟的、業余的、愚蠢的，我建議你該這樣寫……”，將來某一天只要它具備立刻能夠讀懂我嘴唇動作的能力，人們就不會像玩“聽音”游戲那樣嘲笑我了。

原文鏈接：https://www.mouser.com/applicati ... d-machine-learning/

本文地址：http://m.qingdxww.cn/thread-528464-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。