前言 幾年前,那些能夠感知環(huán)境、探測(cè)重要細(xì)節(jié)(忽視其它部分)且使用這些細(xì)節(jié)來完成任務(wù)的技術(shù)應(yīng)用似乎只存在于科幻小說里。然而在2020年,我們看到不少技術(shù)的突飛猛進(jìn)不僅上了頭條新聞,也成為我們?nèi)粘I畹慕M成部分:智能語(yǔ)音助手能夠解讀并對(duì)人類語(yǔ)音的細(xì)微差別作出回應(yīng);相較于醫(yī)生使用的影像檢測(cè),醫(yī)療應(yīng)用能夠更準(zhǔn)確地預(yù)測(cè)癌癥;無人駕駛車輛甚至能夠在動(dòng)態(tài)環(huán)境中行駛。 三類機(jī)器學(xué)習(xí)之一的強(qiáng)化學(xué)習(xí),正在驅(qū)動(dòng)這些技術(shù)進(jìn)步。一般原則促使計(jì)算機(jī)通過識(shí)別其所在環(huán)境的關(guān)鍵特性來作出最佳決定,而這項(xiàng)技能直到最近才成為可能。強(qiáng)化學(xué)習(xí)(RL)、人工神經(jīng)網(wǎng)絡(luò)(ANN) 和深度學(xué)習(xí)(DL) 既展示了人工智能應(yīng)用全新的潛力, 也體現(xiàn)了其達(dá)到人類水平的難度。 機(jī)器學(xué)習(xí)的方法 機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,它促使計(jì)算機(jī)從實(shí)例和經(jīng)驗(yàn)中學(xué)習(xí)。在機(jī)器學(xué)習(xí)的三個(gè)種類(圖表 1 - 上方)中,針對(duì)在相對(duì)容易預(yù)測(cè)的環(huán)境中解決明確界定的問題,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)或許是最廣為人知的方式。 圖表 1:機(jī)器學(xué)習(xí)的種類包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的子類包括特征學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的子類包括特征學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。 監(jiān)督學(xué)習(xí)方法 (SL) 用來解決有標(biāo)記輸入數(shù)據(jù)的問題。監(jiān)督學(xué)習(xí)算法嘗試通過對(duì)這些已知實(shí)例模式和關(guān)聯(lián)的學(xué)習(xí),對(duì)未知實(shí)例進(jìn)行正確處理。一個(gè)經(jīng)典的例子就是圖像識(shí)別。附加人工注解的圖像被用來分析訓(xùn)練模型數(shù)據(jù),從而準(zhǔn)確分類新捕捉的圖像。 無監(jiān)督學(xué)習(xí)方法 (UL) 在無標(biāo)記的數(shù)據(jù)集中推斷隱藏的結(jié)構(gòu)或關(guān)系。一般來說這樣的學(xué)習(xí)方法不用過多的事先準(zhǔn)備工作,而更具描繪性和解釋性的特征。它通常用來為受監(jiān)督的方法做鋪墊。常見的例子是在交易數(shù)據(jù)中識(shí)別不同的客戶群,以便稍后規(guī)劃并開展有針對(duì)性的營(yíng)銷活動(dòng)。 機(jī)器學(xué)習(xí)的第三個(gè)方法是強(qiáng)化學(xué)習(xí) (RL)。這也是目前在頭條新聞中大家看到的最復(fù)雜且類似于人的應(yīng)用。深度學(xué)習(xí)是一種能夠通過獎(jiǎng)勵(lì)和懲罰評(píng)估個(gè)體行動(dòng)及加權(quán)輸入變量的機(jī)器學(xué)習(xí),目的是在此基礎(chǔ)上規(guī)劃未來行動(dòng)。RL努力最大化獎(jiǎng)勵(lì), 最小化懲罰, 并沒有被明確告知如何解決問題。它并非僅限于解決特定的問題或限制特別的環(huán)境,而是聚焦于那些能夠基于來自動(dòng)態(tài)環(huán)境中的復(fù)雜數(shù)據(jù)選擇最優(yōu)決策的機(jī)器。 強(qiáng)化學(xué)習(xí) 強(qiáng)化學(xué)習(xí)的基本理念是以接近人類(或任何足夠聰明的生物)處理的方式模型化學(xué)習(xí),即用已具備的技能和工具試圖達(dá)成一個(gè)特定的目標(biāo)(和獎(jiǎng)勵(lì)相關(guān)),但無清晰的指令如何解決問題。舉個(gè)簡(jiǎn)單的例子:機(jī)器人可以把手張開和握緊來把球放進(jìn)盒子里。要想做到這一點(diǎn),它必須學(xué)習(xí)如何抓住球,把手臂移動(dòng)到合適的位置,再讓球落下。這項(xiàng)訓(xùn)練需要多次迭代和重啟實(shí)驗(yàn);機(jī)器人獲得的唯一反饋是它的行為是否成功,從而調(diào)試動(dòng)作直到目標(biāo)達(dá)成。 這和監(jiān)督學(xué)習(xí)形成了鮮明的對(duì)比, 因?yàn)镾L需要很多的例子(比如一組龐大且多樣的貓的已標(biāo)記圖像)來以多種維度描述問題本身。只有這樣,算法才能學(xué)習(xí)到底哪些特征 (比如形狀或顏色)和最佳決定的作出有關(guān)。回到之前所舉的機(jī)器人例子,同樣,它需要準(zhǔn)確且謹(jǐn)慎地描述過程的每一個(gè)步驟, 比如把手放到哪兒,施加多少壓力等等。對(duì)于低變量的實(shí)例來說,做到這種程度的細(xì)節(jié)是可能的,但如果變量有差,就必須重新學(xué)習(xí)。球稍大點(diǎn),機(jī)器人就可能犯錯(cuò)。 在現(xiàn)實(shí)應(yīng)用里,輸入、輸出和訓(xùn)練數(shù)據(jù)的方程式出人意料的復(fù)雜。例如,無人駕駛車輛要處理大量幾乎實(shí)時(shí)的傳感器數(shù)據(jù)。錯(cuò)過任何一個(gè)環(huán)境的細(xì)微差別都會(huì)造成不可想象的后果,因此風(fēng)險(xiǎn)很大。這就是為什么當(dāng)創(chuàng)造訓(xùn)練實(shí)例或指令在某一個(gè)環(huán)境中難以負(fù)擔(dān)或不可能時(shí),強(qiáng)化學(xué)習(xí)是在這種背景下作決策的首選工具。 強(qiáng)化學(xué)習(xí)的子類型 和其它的機(jī)器學(xué)習(xí)方法一樣,強(qiáng)化學(xué)習(xí)有不同的子類型為未來鋪平道路(圖表 1 - 下方)。尤其是特征學(xué)習(xí) (FL) 讓系統(tǒng)能夠識(shí)別輸入數(shù)據(jù)的不同細(xì)節(jié)。人工神經(jīng)網(wǎng)絡(luò) (ANN) 和深度學(xué)習(xí) (DL) 為高級(jí)解析、處理和學(xué)習(xí)提供了必要的框架,并使深度強(qiáng)化學(xué)習(xí) (DRL) 得以實(shí)現(xiàn)。 特征學(xué)習(xí) 特征學(xué)習(xí)(也被稱為表示學(xué)習(xí))是一種機(jī)器學(xué)習(xí)技術(shù),讓機(jī)器能夠識(shí)別輸入數(shù)據(jù)的特征和獨(dú)立組成部分,而這些信息通常無法在算法中體現(xiàn)。比如,在一輛無人駕駛汽車?yán)铮h(huán)境是由不同的攝像頭、雷達(dá)和傳感器所感知的。即使有眾多信息幫助你決定下一步怎么走,相關(guān)的信息其實(shí)少之又少。比如,天空的顏色通常無關(guān)緊要,而紅綠燈的顏色則息息相關(guān)。 一只鳥飛過的速度和一個(gè)路人走到路邊的速度都無關(guān)痛癢。 具有體現(xiàn)這種程度的輸入功能的能力究竟為何如此重要? 用于訓(xùn)練目的的數(shù)據(jù)集在模型的準(zhǔn)確性上扮演著關(guān)鍵的角色:訓(xùn)練數(shù)據(jù)越多越好,尤其是數(shù)據(jù)集里具備差異性大且特征清晰的實(shí)例。也就是說,正是那些輸入數(shù)據(jù)中獨(dú)一無二的獨(dú)立特征幫助計(jì)算機(jī)彌補(bǔ)已學(xué)和未學(xué)內(nèi)容之間的差距,從而在任何情境下保證百分之百的準(zhǔn)確性和連貫性。對(duì)差異因素的識(shí)別能力也有助于避免可能被忽視的特征和異常點(diǎn), 因?yàn)殡S著時(shí)間的推移,這將大幅減少數(shù)據(jù)的數(shù)量。 人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí) 變數(shù)大的應(yīng)用需要一個(gè)穩(wěn)健且可擴(kuò)展的框架。尤其在監(jiān)督學(xué)習(xí)領(lǐng)域,受到高度關(guān)注的一種學(xué)習(xí)方法要數(shù)深度學(xué)習(xí)了。與強(qiáng)化學(xué)習(xí)的原則相結(jié)合,我們稱之為深度強(qiáng)化學(xué)習(xí)。 人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Networks, ANN) 的最初設(shè)想要追溯到上世紀(jì)六十年代,籠統(tǒng)地建立在類似于網(wǎng)絡(luò)的人類大腦神經(jīng)結(jié)構(gòu)的基礎(chǔ)之上。ANN由一個(gè)龐大的人類神經(jīng)原網(wǎng)絡(luò)所組成,這些神經(jīng)原叫做感知器,能夠接受輸入信號(hào),權(quán)衡輸入的不同特征,然后將信號(hào)導(dǎo)入網(wǎng)絡(luò)中,直到抵達(dá)輸出信號(hào)端。 網(wǎng)絡(luò)的屬性由神經(jīng)原的數(shù)量、其連接的強(qiáng)度和數(shù)量及激活上限來定義。輸入信號(hào)必須具有此強(qiáng)度才能被傳送。ANN擁有包含多種輸入層和輸出層的可升級(jí)結(jié)構(gòu),使用中間“隱藏"層把輸入轉(zhuǎn)化成輸出層可使用的內(nèi)容。深度學(xué)習(xí)的專用名詞正是來自于由大量接連層級(jí)的神經(jīng)原網(wǎng)絡(luò),因此是“深度的”。 為什么它被視為在復(fù)雜的輸入數(shù)據(jù)和動(dòng)態(tài)的環(huán)境中創(chuàng)造最佳答案的最合適方法呢?答案就在它的學(xué)習(xí)方式:反向傳播。對(duì)于任何已給的訓(xùn)練信號(hào),比如描述向量坐標(biāo)或一張圖像的顏色值,網(wǎng)絡(luò)會(huì)先檢查已生成的輸出正確與否,然后對(duì)權(quán)重稍作調(diào)整以實(shí)現(xiàn)想要的結(jié)果。經(jīng)過足夠的訓(xùn)練迭代,網(wǎng)絡(luò)不僅穩(wěn)定性增加,而且能夠識(shí)別之前未知的情況。 人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的局限性 由于人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)有能力體現(xiàn)特征并在動(dòng)態(tài)環(huán)境中得出最佳答案,因此他們的潛力不可估量。即便如此,它們的技能卻指向更多的挑戰(zhàn),也呈現(xiàn)出與模仿人類智慧中的某些方面仍然存在的差距。 需要百萬千萬個(gè)節(jié)點(diǎn)、連接和訓(xùn)練迭代 模塊化相關(guān)問題要求人工神經(jīng)網(wǎng)絡(luò)具備足夠數(shù)量的節(jié)點(diǎn)和連接來處理(分析和存儲(chǔ))百萬千萬計(jì)的變量。現(xiàn)代計(jì)算機(jī)直到最近才能夠做到這一點(diǎn)。同樣,訓(xùn)練環(huán)路的數(shù)量可多達(dá)十億百億,且隨著環(huán)境變量的大小呈指數(shù)增長(zhǎng)。強(qiáng)化學(xué)習(xí)的首次重大突破出現(xiàn)在像圍棋這樣的游戲中并非偶然,一個(gè)叫做阿爾法的圍棋機(jī)器人(AlphaGo)擊敗了人類最棒的職業(yè)圍棋選手:游戲的規(guī)則和目標(biāo)非常明確,因此很容易讓人工智能通過和自己對(duì)戰(zhàn)快速模擬多輪游戲。下一步革命性的突破要數(shù)超級(jí)瑪麗或星際爭(zhēng)霸這樣的電子游戲。雖然行動(dòng)和結(jié)果之間的關(guān)系更加復(fù)雜,但環(huán)境的局限性讓快速模擬多次迭代成為可能。 像無人駕駛這樣的現(xiàn)實(shí)問題的屬性則完全不同。制定安全到達(dá)目的地的這類高級(jí)任務(wù)本身難度并不高。然而環(huán)境的多樣性要求模擬必須更加成熟,才能更有效地學(xué)習(xí)實(shí)際問題。歸根結(jié)底,模擬駕駛最終還必須被現(xiàn)實(shí)駕駛所替代,以通盤考慮到所有其它無法被模塊化的因素,同時(shí)在與人類水平相當(dāng)?shù)鸟{駛表現(xiàn)目標(biāo)實(shí)現(xiàn)以前,密切監(jiān)控必不可少。舉例來說,2020年,自動(dòng)駕駛汽車研發(fā)公司W(wǎng)aymo在一份新聞發(fā)布稿中提到,它們的汽車要想和人類一爭(zhēng)高下,還需要累計(jì)一千四百年的駕駛經(jīng)驗(yàn)。這和我們只花幾周時(shí)間練習(xí)就能上路相比簡(jiǎn)直不可想象。那么為何強(qiáng)化學(xué)習(xí)無法做到這一點(diǎn)呢?還是這并非不可能……? 與抽象和推理相關(guān)的技能 人類能夠快速學(xué)習(xí)如何玩游戲或開車的一個(gè)重要原因是,我們通過抽象化和推理來學(xué)習(xí)。通過這種學(xué)習(xí)方式,駕駛員能夠以不同的角度或在不同的情境下想象紅綠燈是什么樣子,這依賴于人類與生俱來的空間意識(shí)。我們也可以在路上看見并判斷與以往看到的顏色不同的汽車,從觀察和經(jīng)驗(yàn)中得出結(jié)論。 而這些功能直到最近才在人工神經(jīng)網(wǎng)絡(luò)中得以探索。即便不同的網(wǎng)絡(luò)層級(jí)能夠捕捉輸入數(shù)據(jù)的不同維度,例如 形狀和顏色,網(wǎng)絡(luò)還是只能處理那些訓(xùn)練數(shù)據(jù)里明確容納的特征。假設(shè)人工智能的受訓(xùn)時(shí)間是白天,那么模型將很難應(yīng)付夜晚的各種情況。即使應(yīng)用深度學(xué)習(xí),在訓(xùn)練數(shù)據(jù)中還是應(yīng)該考慮到諸如此類的差異,那么來自訓(xùn)練數(shù)據(jù)中可接受的偏差程度仍然非常低。 目前我們正在探索很多不同的通過抽象和推斷進(jìn)行學(xué)習(xí)的技術(shù),而這些技術(shù)甚至顯露了更多的挑戰(zhàn)性和局限性。人工神經(jīng)網(wǎng)絡(luò)失誤的一個(gè)著名例子是,有一種計(jì)算機(jī)視覺系統(tǒng)能夠識(shí)別西伯利亞哈士奇犬,而且可信度相較于對(duì)于其它犬類的辨識(shí)高出很多。實(shí)際上,更仔細(xì)的分析表明,網(wǎng)絡(luò)僅鎖定了幾乎所有哈士奇圖像中出現(xiàn)的雪,而幾乎忽視了狗本身。換句話說,模型并沒有認(rèn)知地面顏色并非狗的先天特征之一,而這一細(xì)節(jié)對(duì)人類來說卻是微不足道的。 雖然這個(gè)例子稍顯牽強(qiáng),但現(xiàn)實(shí)生活中的后果可能會(huì)是可怕的。我們不妨再次以無人駕駛車輛為例,雖然事故很少發(fā)生,但卻可追根溯源到情境的模糊性。2018年的一場(chǎng)車禍中,推著一輛自行車穿過四車道高速的路人喪生。人類駕駛員可能很容易地避免事故的發(fā)生,而人工神經(jīng)網(wǎng)絡(luò)的失誤卻導(dǎo)致了致命的車禍。由于當(dāng)時(shí)的情況并沒有出現(xiàn)在很多小時(shí)的訓(xùn)練中,網(wǎng)絡(luò)并沒有執(zhí)行以“如果你不知道該怎么做,就停車!”為命令的故障切換。因此系統(tǒng)開始陣腳大亂,原因是它實(shí)際上缺乏人類智慧的基石。 更糟的是,不懷好意的人可能會(huì)鉆人工智能盲點(diǎn)的空子。舉例來說,如果有人在訓(xùn)練過程中插入經(jīng)操縱的圖像,那么圖像分類就會(huì)被誤導(dǎo)。如果說圖像中細(xì)小的變更對(duì)人類來說微乎其微,同樣的變更在ANN中則可能以不同的方式被認(rèn)知和解讀。一個(gè)未加注解貼紙的停字牌可能被錯(cuò)誤地認(rèn)為其它交通標(biāo)志。如果這一受訓(xùn)模型被用在一輛真正的車?yán)铮强赡軙?huì)造成交通事故。 反之,人類駕駛員肯定會(huì)毫無問題地認(rèn)出停字牌。 跨越障礙和局限 這些障礙和其它的局限令我們不禁產(chǎn)生疑問,下一步該怎么走才能驅(qū)使人工神經(jīng)網(wǎng)絡(luò)繼續(xù)在作出最佳決策上彌補(bǔ)不足? 簡(jiǎn)單的答案是:“更多的訓(xùn)練”。倘若訓(xùn)練數(shù)據(jù)的差異性和質(zhì)量夠高,失誤率就能縮小到模型的準(zhǔn)確率是可接受的程度。事實(shí)上現(xiàn)今的自動(dòng)駕駛汽車事故率比人類駕駛員要低,但“令人驚恐失色的事故”的潛在性還是阻礙了其被更為廣泛的公眾所接受。 另一個(gè)系統(tǒng)性方法是對(duì)所需的背景知識(shí)進(jìn)行明確編碼,并在機(jī)器學(xué)習(xí)過程中可用。比如,由Cycorp創(chuàng)造的知識(shí)庫(kù)已經(jīng)存在了很多年,涵蓋了數(shù)百萬的概念和關(guān)系,也包括了我們之前所說的停字牌的意義。目的是對(duì)人類知識(shí)以機(jī)器可讀的格式進(jìn)行人工編碼,從而使人工智能不僅僅依賴于訓(xùn)練數(shù)據(jù),還能夠自行作出結(jié)論, 且至少以類似人類直覺的方式評(píng)估部分未知的情況。 總結(jié) 能夠感知環(huán)境、認(rèn)知關(guān)鍵的細(xì)節(jié)并優(yōu)化決策的技術(shù)已經(jīng)不只存在于科幻小說中。機(jī)器學(xué)習(xí)三種類型之—的強(qiáng)化學(xué)習(xí),為我們處理高維變量且與動(dòng)態(tài)環(huán)境交互提供了工具和框架。然而,這些解決方案也帶來了新的挑戰(zhàn),尤其是對(duì)于大量神經(jīng)網(wǎng)絡(luò)、全面培訓(xùn)和通過抽象化處理及推導(dǎo)從而模仿人類學(xué)習(xí)能力的需要,從而適應(yīng)新情況。雖然目前人工智能已經(jīng)取得了長(zhǎng)足進(jìn)展,也日益成為許多實(shí)際應(yīng)用中不可或缺的一部分, 但是離達(dá)到人類水平的學(xué)習(xí)技能還相去甚遠(yuǎn)。經(jīng)歷并體驗(yàn)中間的過程可能比科幻小說本身更有意思。 文章來源:貿(mào)澤電子 作者簡(jiǎn)介:Michael Matuschek是一位資深數(shù)據(jù)專家,來自德國(guó)杜塞爾多夫, 擁有計(jì)算機(jī)科學(xué)碩士學(xué)位和計(jì)算語(yǔ)言學(xué)博士學(xué)位, 曾從事過多個(gè)行業(yè)的各種自然語(yǔ)言處理項(xiàng)目和學(xué)術(shù)界的工作, 涵蓋的主題包括評(píng)論的情感分析、客戶電子郵件分類和本體富集。 |