機器學習的難點在哪？理論局限性需要重視

發布時間：2018-1-17 06:14 發布者：eaoogle_WSN

教授Gary Marcus就對深度學習展開了系統性的批判。此前，圖靈獎獲得者，UCLA教授Judea Pearl的題為Theoretical Impediments to Machine Learning with Seven Sparks from the Causal Revolution的論文中，就已探討了當前機器學習存在的理論局限性，并給出了面向解決這些問題，來自因果推理的七個啟發。Pearl教授在NIPS 2017系列活動中對本文進行了討論，隨后，他也對一些人們關心的問題進行了解答。

當前的機器學習幾乎完全是統計學或黑箱的形式，從而為其性能帶來了嚴重的理論局限性。這樣的系統不能推斷干預和反思，因此不能作為強人工智能的基礎。為了達到人類級別的智能，學習機器需要現實模型（類似于因果推理的模型）的引導。為了展示此類模型的關鍵性，我將總結展示7種當前機器學習系統無法完成的任務，并使用因果推理的工具完成它們。

圖1：因果關系的類型

因果推理模型的 7 種特性
考慮以下5個問題：
給定的療法在治療某種疾病上的有效性？

是新的稅收優惠導致了銷量上升嗎？

每年的醫療費用上升是由于肥胖癥人數的增多嗎？

招聘記錄可以證明雇主的性別歧視罪嗎？

我應該放棄我的工作嗎？

這些問題的一般特征是它們關心的都是原因和效應的關系，可以通過諸如「治療」、「導致」、「由于」、「證明」和「我應該」等詞識別出這類關系。這些詞在日常語言中很常見，并且我們的社會一直都需要這些問題的答案。然而，直到最近也沒有足夠好的科學方法對這些問題進行表達，更不用說回答這些問題了。和幾何學、機械學、光學或概率論的規律不同，原因和效應的規律曾被認為不適合應用數學方法進行分析。

這種誤解有多嚴重呢？實際上僅幾十年前科學家還不能為明顯的事實「mud does not cause rain」寫下一個數學方程。即使是今天，也只有頂尖的科學家能寫出這樣的方程并形式地區分「mud causes rain」和「rain causes mud」。

據所了解，過去三十年的事情已發生巨大變化，一種強大而透明的數學語言已被開發用于處理因果關系。伴隨著一套把因果分析轉化為數學博弈的工具，這些工具允許我們表達因果問題，用圖和代數形式正式編纂我們現有的知識，然后利用我們的數據來估計答案。進而，這警告我們當現有知識或可獲得的數據不足以回答我們的問題時，額外的知識或數據源能使問題變的可回答。

我把這種轉化稱為「因果革命」（Pearl and Mackenzie, 2018, forthcoming），而導致因果革命的數理框架我稱之為「結構性因果模型」（SCM）。

據羿戓設計所了解，SCM由三部分構成：
圖模型

結構化方程

反事實和介入式邏輯

圖模型作為表征知識的語言，反事實邏輯幫助表達問題，結構化方程以清晰的語義將前兩者關聯起來。

接下來介紹SCM框架的7項最重要的特性，并討論每項特性對自動化推理做出的獨特貢獻。

1. 編碼因果假設—透明性和可試性
圖模型可以用緊湊的格式編碼因果假設，同時保留透明性和可試性。其透明性使我們可以了解編碼的假設是否可信（科學意義上），以及是否有必要添加其它假設。可試性使我們（作為人類或機器）決定編碼的假設是否與可用的數據相容，如果不相容，分辨出需要修改的假設。利用d-分離（d-separate）的圖形標準有助于以上過程的執行，d-分離構成了原因和概率之間的關聯。通過d-分離可以知道，對模型中任意給定的路徑模式，哪些依賴關系的模式才是數據中應該存在的（Pearl，1988）。

2. do-calculus和混雜控制
混雜是從數據中提取因果推理的主要障礙，通過利用一種稱為「back-door」的圖形標準可以完全地「解混雜」。特別地，為混雜控制選擇一個合適的協變量集合的任務已被簡化為一種簡單的「roadblocks」問題，并可用簡單的算法求解。（Pearl，1993）

為了應對「back-door」標準不適用的情況，人們開發了一種符號引擎，稱為 do-calculus，只要條件適宜，它可以預測策略干預的效應。每當預測不能由具體的假設確定的時候，會以失敗退出（Pearl, 1995; Tian and Pearl, 2002; Shpitser and Pearl, 2008）。

3. 反事實算法
反事實分析處理的是特定個體的行為，以確定清晰的特征集合。例如，假定Joe的薪水為Y=y，他上過X=x年的大學，那么Joe接受多一年教育的話，他的薪水將會是多少？

在圖形表示中使用反事實推理是將因果推理應用于編碼科學知識的非常有代表性的研究，每一個結構化方程都決定了每一個反事實語句的真值。因此，我們可以確定關于語句真實性的概率是不是可以從實驗或觀察研究（或實驗加觀察）中進行估計（Balke and Pearl, 1994; Pearl, 2000, Chapter 7）。

人們在因果論述中特別感興趣的是關注「效應的原因」的反事實問題（和「原因的效應」相對）。（Pearl，2015）

4. 調解分析和直接、間接效應的評估
調解分析關心的是將變化從原因傳遞到效應的機制。對中間機制的檢測是生成解釋的基礎，且必須應用反事實邏輯幫助進行檢測。反事實的圖形表征使我們能定義直接和間接效應，并確定這些效應可從數據或實驗中評估的條件（Robins and Greenland, 1992; Pearl, 2001; VanderWeele, 2015）

5. 外部效度和樣本選擇偏差
每項實驗研究的有效性都需要考慮實驗和現實設置的差異。不能期待在某個環境中訓練的模型可以在環境改變的時候保持高性能，除非變化是局域的、可識別的。上面討論的do-calculus提供了完整的方法論用于克服這種偏差來源。它可以用于重新調整學習策略、規避環境變化，以及控制由非代表性樣本帶來的偏差（Bareinboim and Pearl, 2016）。

6. 數據丟失
數據丟失的問題困擾著實驗科學的所有領域。回答者不會在調查問卷上填寫所有的條目，傳感器無法捕捉環境中的所有變化，以及病人經常不知為何從臨床研究中突然退出。對于這個問題，大量的文獻致力于統計分析的黑箱模型范式。使用缺失過程的因果模型，我們可以形式化從不完整數據中恢復因果和概率的關系的條件，并且只要條件被滿足，就可以生成對所需關系的一致性估計（Mohan and Pearl, 2017）。

7. 挖掘因果關系
上述的d-分離標準使我們能檢測和列舉給定因果模型的可測試推斷。這為利用不精確的假設、和數據相容的模型集合進行推理提供了可能，并可以對模型集合進行緊湊的表征。人們已在特定的情景中做過系統化的研究，可以顯著地精簡緊湊模型的集合，從而可以直接從該集合中評估因果問詢。

NIPS 2017 研討會 Q&A
我在一個關于機器學習與因果性的研討會（長灘NIPS 2017會議之后）上發表了講話。隨后我就現場若干個問題作了回應。我希望從中你可以發現與博客主題相關的問題和回答。

一些人也想拷貝我的PPT，下面的鏈接即是，并附上論文：

http://ftp.cs.ucla.edu/pub/stat_ser/r475.pdf

NIPS 17 – What If? Workshop Slides (PDF)（http://causality.cs.ucla.edu/blog/wp-content/uploads/2017/12/nips-dec2017-bw.pdf）

NIPS 17 – What If? Workshop Slides (PPT [zipped])（http://causality.cs.ucla.edu/blog/wp-
content/uploads/2017/12/nips-dec2017-bw.pdf）

問題 1：「因果革命」是什么意思？

回答：「革命」是詩意用法，以總結Gary King的奇跡般的發現：「在過去幾十年里，對于因果推斷的了解比以前所有歷史記載的總和還要多」（參見Morgan和Winship合著的書的封面，2015）。三十年之前，我們還無法為「Mud does not cause Rain」編寫一個公式；現在，我們可以公式化和評估每一個因果或反事實陳述。

問題 2：由圖模型產生的評估與由潛在結果的方法產生的評估相同嗎？

回答：是的，假設兩種方法開始于相同的假設。圖方法（graphical approach）中的假設在圖中被展示，而潛在結果方法（potential outcome approach）中的假設則通過使用反事實詞匯被審查者單獨表達。

問題 3：把潛在的結果歸因于表格個體單元的方法似乎完全不同于圖方法中所使用的方法。它們的區別是什么？

回答：只在有可條件忽略的特定假設成立的情況下，歸因才有效。表格本身并未向我們展示假設是什么，其意義是什么？為了搞明白其意義，我們需要一個圖，因為沒有人可在頭腦中處理這些假設。流程上的明顯差異反映了對假設可見的堅持（在圖框架中），而不是使其隱藏。

問題 4：有人說經濟學家并不使用圖，因為其問題不同，并且也沒能力建模整個經濟。你同意這種解釋嗎？

回答：不同意！從數學上講，經濟問題與流行病學家（或其他科學家）面臨的問題并無不同，對于后者來講，圖模型已經成為了第二語言。此外，流行病學家從未抱怨圖迫使其建模整個人體解剖結構。（一些）經濟學家中的圖規避（graph-avoidance）是一種文化現象，讓人聯想到17世紀意大利教會天文學家會避開望遠鏡。流行病學家可以判斷他們的假設的合理性——規避掉圖的經濟學家卻做不到（我提供給他們很多公開證明的機會，并且我不責怪他們保持沉默；沒有外援，這個問題無法被處理）。

問題 5：深度學習不僅僅是盛贊曲線擬合？畢竟，曲線擬合的目標是最大化擬合，同時深度學習中很多努力也在最小化過擬合。

回答：在你的學習策略中不管你使用何種技巧來最小化過擬合或其他問題，你依然在優化已觀察數據的一些屬性，同時不涉及數據之外的世界。這使你立即回到因果關系階梯的第一階段，其中包含了第一階段要求的所有限制。

本文地址：http://m.qingdxww.cn/thread-522310-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。