當(dāng)你打開互聯(lián)網(wǎng)搜索引擎,輸入關(guān)鍵詞尋找并得到想要的鏈接時,“機器學(xué)習(xí)”已經(jīng)貫穿整個過程:搜索到的內(nèi)容是機器根據(jù)無數(shù)人搜索關(guān)鍵詞的統(tǒng)計結(jié)果,返回的最可能被需要的目標(biāo)信息;而同時,你的這一次搜索行為也已經(jīng)被機器記錄,加入到它的龐大無比的數(shù)據(jù)庫中,用來了解人的搜索習(xí)慣和需求。 隨著計算機與網(wǎng)絡(luò)的飛速發(fā)展,機器學(xué)習(xí)作用越來越大,正在改變著我們的生活和工作。互聯(lián)網(wǎng)搜索、在線廣告、機器翻譯、手寫識別、垃圾郵件過濾等等都是以機器學(xué)習(xí)為核心技術(shù)的。 微軟亞洲研究院互聯(lián)網(wǎng)搜索與挖掘組高級研究員李航博士介紹說,機器學(xué)習(xí)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建模型并運用模型來模擬人類智能活動的一門學(xué)科。機器學(xué)習(xí)實際上體現(xiàn)了計算機向智能化發(fā)展的必然趨勢。現(xiàn)在當(dāng)人們提到機器學(xué)習(xí)時,通常是指統(tǒng)計機器學(xué)習(xí)或統(tǒng)計學(xué)習(xí)。實踐表明,統(tǒng)計機器學(xué)習(xí)是實現(xiàn)計算機智能化這一目標(biāo)的最有效手段。 機器學(xué)習(xí)最大的優(yōu)點是它具有泛化能力,也就是可以舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉,這種能力就是泛化能力。 當(dāng)然,統(tǒng)計學(xué)習(xí)的預(yù)測準(zhǔn)確率不能保證100%。 李航說,機器學(xué)習(xí)是“鄉(xiāng)下人”的辦法。有個笑話。一個鄉(xiāng)下人進(jìn)城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學(xué)著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉(xiāng)下人不注意時把蠟燭扔到地上,然后咬了一口卷著的餅。鄉(xiāng)下人也跟著學(xué),大咬了一口自己的餅。機器學(xué)習(xí)只是根據(jù)觀測,“模仿”人的智能行為,有時能夠顯得非常智能化。但如果觀測不到關(guān)鍵的特征,它就會去“咬卷著蠟燭的餅”。 據(jù)調(diào)查,60%的互聯(lián)網(wǎng)用戶每天至少使用一次搜索引擎,90%的互聯(lián)網(wǎng)用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學(xué)習(xí)以及生活的質(zhì)量。而互聯(lián)網(wǎng)搜索的基本技術(shù)中,機器學(xué)習(xí)占據(jù)著重要的位置。 在李航看來,互聯(lián)網(wǎng)搜索有兩大挑戰(zhàn)和一大優(yōu)勢。挑戰(zhàn)包括規(guī)模挑戰(zhàn)與人工智能挑戰(zhàn);優(yōu)勢主要是規(guī)模優(yōu)勢。 規(guī)模挑戰(zhàn):比如,搜索引擎能看到萬億量級的網(wǎng)址,每天有幾億、幾十億的用戶查詢,需要成千上萬臺的機器抓取、處理、索引網(wǎng)頁,為用戶提供服務(wù)。這需要系統(tǒng)、軟件、硬件等多方面的技術(shù)研發(fā)與創(chuàng)新。 人工智能挑戰(zhàn):搜索最終是人工智能問題。搜索系統(tǒng)需要幫助用戶盡快、盡準(zhǔn)、盡全地找到信息。這從本質(zhì)上需要對用戶需求如查詢語句,以及互聯(lián)網(wǎng)上的文本、圖像、視頻等多種數(shù)據(jù)進(jìn)行“理解”,F(xiàn)在的搜索引擎通過關(guān)鍵詞匹配以及其他“信號”,能夠在很大程度上幫助用戶找到信息。但是,還是遠(yuǎn)遠(yuǎn)不夠的。 規(guī)模優(yōu)勢:互聯(lián)網(wǎng)上有大量的內(nèi)容數(shù)據(jù),搜索引擎記錄了大量的用戶行為數(shù)據(jù)。這些數(shù)據(jù)能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“春風(fēng)又綠江南岸作者是誰”。另一方面,低頻率的搜索行為對人工智能的挑戰(zhàn)就更顯著。 李航說,現(xiàn)在的互聯(lián)網(wǎng)搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求,也是因為機器學(xué)習(xí)在一定程度上能夠利用規(guī)模優(yōu)勢去應(yīng)對人工智能挑戰(zhàn)。但距離 “有問必答,準(zhǔn)、快、全、好”這一理想還是有一定距離的,這就需要開發(fā)出更多更好的機器學(xué)習(xí)技術(shù)解決人工智能的挑戰(zhàn)。 文/人民日報 |