簡介 AI研究人員開始將AI安全工程設(shè)計面臨的主要挑戰(zhàn)列為過去60年AI失敗的主要原因,例如價值觀對接問題。同時,另一個現(xiàn)實(shí)問題也暴露出來:機(jī)器越智能,人們預(yù)測、解釋和理解其影響的能力就越差。 不可預(yù)測性 AI的不可預(yù)測性是指我們無法準(zhǔn)確、連貫地預(yù)測系統(tǒng)將采取哪些具體措施來實(shí)現(xiàn)其目標(biāo)。例如,在一場智能國際象棋比賽中,我們可以預(yù)測AI將獲勝(如果這是它的目標(biāo)),但是我們無法預(yù)測AI為了取勝具體會怎樣走棋。這種情況的后果還無關(guān)緊要,但隨著目標(biāo)的智能性和復(fù)雜性增加,不可預(yù)測性也會隨之放大。如第2部分所述,假設(shè)通過AI來幫助治療癌癥,理論上講,它可以把殺死人類算作把病治好了。 這些中間步驟取決于幾個因素,包括AI在整個過程中的互動。在第3部分中介紹過Microsoft的聊天機(jī)器人Tay,因?yàn)榕c人們的在線互動而被“教壞”,成了一個狂飆臟話的種族主義者。而且,較低的智能系統(tǒng)無法學(xué)會預(yù)測較高智能系統(tǒng)做出的決策。先進(jìn)的AI可以理論化所有可能的選擇、決策或策略,而人類則沒有這種能力。有的細(xì)分應(yīng)用系統(tǒng)雖然總體上相對人類力不能及,但在某些領(lǐng)域具有比人類更勝一籌的智能,這些系統(tǒng)可能會出現(xiàn)類似情況。 不可解釋性 不可解釋性是指無法以一種可理解的準(zhǔn)確方式來解釋智能系統(tǒng)做出的決策。例如,應(yīng)用于按揭貸款審批的AI可能會通過數(shù)百萬甚至數(shù)十億的加權(quán)因子進(jìn)行決策。但是當(dāng)申請人被拒絕時,會用一兩個因素來解釋,例如“不良信用”或“工資不夠”。但是,這種解釋充其量只是其簡化過的決策方式。這類似于低質(zhì)量的圖像壓縮,在壓縮過程中,即使生成的圖像在很大程度上代表了原始圖像,但數(shù)據(jù)還是在壓縮過程中丟失了。同理,把拒絕按揭的原因解釋為“不良信用”,也就忽略了其他因素可能產(chǎn)生的影響。由此給出的解釋是不完整的,因此也不是100%準(zhǔn)確。 其他因素是否也應(yīng)列為拒絕的主要原因? 有可能。以美國為例,不可以根據(jù)是否屬于受保護(hù)階層來作出涉及貸款、住房、醫(yī)療保健等方面的決定。用于審批按揭貸款的AI不能在決策過程中使用年齡或性別等因素,但此類數(shù)據(jù)卻可能會成為決策因素。 例如,如果按揭公司曾拒絕向在舊金山生活的18-25歲沒有大學(xué)學(xué)歷的拉丁裔女性提供貸款,那么AI可能會認(rèn)為符合這些條件的申請人的違約風(fēng)險更高,而不考慮申請人其他的有利條件。在這里又冒出了不可預(yù)測性,但這是一個很好的例子,說明了決策需要能夠被準(zhǔn)確、完整地解釋的重要性。 不可理解性 如果對拒絕按揭貸款申請的原因進(jìn)行了完整而準(zhǔn)確的解釋,那么這種解釋是否可以理解呢? 可理解性或多或少與個人有關(guān),具有金融學(xué)位或多年按揭貸款行業(yè)經(jīng)驗(yàn)的人比沒有類似領(lǐng)域知識的人會對準(zhǔn)確而完整的解釋有更透徹的理解,或理解起來更加輕松。盡管如此,一個將百萬個不同加權(quán)因子納入考量的系統(tǒng)所作出的具體響應(yīng)仍然可能不被人類所理解,因?yàn)槲覀儧]有理解如此多相互關(guān)聯(lián)變量的存儲容量、記憶力和能力。 AI安全性的意義 不可預(yù)測性、不可解釋性和不可理解性使實(shí)現(xiàn)100%安全的AI成為妄想,因?yàn)榧词故且训玫焦J(rèn)的標(biāo)準(zhǔn)、法律和工具也無法恰如其分地鼓勵或阻止不良影響。即使有能力預(yù)測AI行為,我們也無法在不限制智能或系統(tǒng)價值的情況下有效地控制行為。當(dāng)然,評估和調(diào)試AI故障需要可理解的解釋,隨著機(jī)器智能的提高,做到這一點(diǎn)的可能性越來越小。接下來的第5部分將探討AI安全性如何影響工程領(lǐng)域。 文章來源:貿(mào)澤電子 作者簡介:Roman V. Yampolskiy博士是路易斯維爾大學(xué) (University of Louisville) 計算機(jī)科學(xué)與工程系的終身副教授。他還是網(wǎng)絡(luò)安全實(shí)驗(yàn)室的創(chuàng)始人和現(xiàn)任主任,并著有多部著作,包括《Artificial Superintelligence: a Futuristic Approach》。 |