當(dāng)你打開互聯(lián)網(wǎng)搜索引擎,輸入關(guān)鍵詞尋找并得到想要的鏈接時(shí),“機(jī)器學(xué)習(xí)”已經(jīng)貫穿整個(gè)過程:搜索到的內(nèi)容是機(jī)器根據(jù)無數(shù)人搜索關(guān)鍵詞的統(tǒng)計(jì)結(jié)果,返回的最可能被需要的目標(biāo)信息;而同時(shí),你的這一次搜索行為也已經(jīng)被機(jī)器記錄,加入到它的龐大無比的數(shù)據(jù)庫中,用來了解人的搜索習(xí)慣和需求。 隨著計(jì)算機(jī)與網(wǎng)絡(luò)的飛速發(fā)展,機(jī)器學(xué)習(xí)作用越來越大,正在改變著我們的生活和工作。互聯(lián)網(wǎng)搜索、在線廣告、機(jī)器翻譯、手寫識(shí)別、垃圾郵件過濾等等都是以機(jī)器學(xué)習(xí)為核心技術(shù)的。 微軟亞洲研究院互聯(lián)網(wǎng)搜索與挖掘組高級(jí)研究員李航博士介紹說,機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建模型并運(yùn)用模型來模擬人類智能活動(dòng)的一門學(xué)科。機(jī)器學(xué)習(xí)實(shí)際上體現(xiàn)了計(jì)算機(jī)向智能化發(fā)展的必然趨勢(shì)。現(xiàn)在當(dāng)人們提到機(jī)器學(xué)習(xí)時(shí),通常是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)。實(shí)踐表明,統(tǒng)計(jì)機(jī)器學(xué)習(xí)是實(shí)現(xiàn)計(jì)算機(jī)智能化這一目標(biāo)的最有效手段。 機(jī)器學(xué)習(xí)最大的優(yōu)點(diǎn)是它具有泛化能力,也就是可以舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉,這種能力就是泛化能力。 當(dāng)然,統(tǒng)計(jì)學(xué)習(xí)的預(yù)測(cè)準(zhǔn)確率不能保證100%。 李航說,機(jī)器學(xué)習(xí)是“鄉(xiāng)下人”的辦法。有個(gè)笑話。一個(gè)鄉(xiāng)下人進(jìn)城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學(xué)著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉(xiāng)下人不注意時(shí)把蠟燭扔到地上,然后咬了一口卷著的餅。鄉(xiāng)下人也跟著學(xué),大咬了一口自己的餅。機(jī)器學(xué)習(xí)只是根據(jù)觀測(cè),“模仿”人的智能行為,有時(shí)能夠顯得非常智能化。但如果觀測(cè)不到關(guān)鍵的特征,它就會(huì)去“咬卷著蠟燭的餅”。 據(jù)調(diào)查,60%的互聯(lián)網(wǎng)用戶每天至少使用一次搜索引擎,90%的互聯(lián)網(wǎng)用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學(xué)習(xí)以及生活的質(zhì)量。而互聯(lián)網(wǎng)搜索的基本技術(shù)中,機(jī)器學(xué)習(xí)占據(jù)著重要的位置。 在李航看來,互聯(lián)網(wǎng)搜索有兩大挑戰(zhàn)和一大優(yōu)勢(shì)。挑戰(zhàn)包括規(guī)模挑戰(zhàn)與人工智能挑戰(zhàn);優(yōu)勢(shì)主要是規(guī)模優(yōu)勢(shì)。 規(guī)模挑戰(zhàn):比如,搜索引擎能看到萬億量級(jí)的網(wǎng)址,每天有幾億、幾十億的用戶查詢,需要成千上萬臺(tái)的機(jī)器抓取、處理、索引網(wǎng)頁,為用戶提供服務(wù)。這需要系統(tǒng)、軟件、硬件等多方面的技術(shù)研發(fā)與創(chuàng)新。 人工智能挑戰(zhàn):搜索最終是人工智能問題。搜索系統(tǒng)需要幫助用戶盡快、盡準(zhǔn)、盡全地找到信息。這從本質(zhì)上需要對(duì)用戶需求如查詢語句,以及互聯(lián)網(wǎng)上的文本、圖像、視頻等多種數(shù)據(jù)進(jìn)行“理解”。現(xiàn)在的搜索引擎通過關(guān)鍵詞匹配以及其他“信號(hào)”,能夠在很大程度上幫助用戶找到信息。但是,還是遠(yuǎn)遠(yuǎn)不夠的。 規(guī)模優(yōu)勢(shì):互聯(lián)網(wǎng)上有大量的內(nèi)容數(shù)據(jù),搜索引擎記錄了大量的用戶行為數(shù)據(jù)。這些數(shù)據(jù)能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“春風(fēng)又綠江南岸作者是誰”。另一方面,低頻率的搜索行為對(duì)人工智能的挑戰(zhàn)就更顯著。 李航說,現(xiàn)在的互聯(lián)網(wǎng)搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求,也是因?yàn)闄C(jī)器學(xué)習(xí)在一定程度上能夠利用規(guī)模優(yōu)勢(shì)去應(yīng)對(duì)人工智能挑戰(zhàn)。但距離 “有問必答,準(zhǔn)、快、全、好”這一理想還是有一定距離的,這就需要開發(fā)出更多更好的機(jī)器學(xué)習(xí)技術(shù)解決人工智能的挑戰(zhàn)。 文/人民日?qǐng)?bào) |