來源:新智元 【新智元導讀】Nature封面論文:美國研究者借助機器學習算法,利用“廢棄”數據成功預測新材料的合成,引發學界激論:人工智能真能加速發現神奇新材料嗎?該研究所用的“計算材料學”結合計算機模型和機器學習,是對傳統研究方法的革新。計算機科學和人工智能的影響已經拓展到越來越多的領域,機器學習或將改變未來科研方式。 發現一種新的材料是非常艱難的過程,通常要經歷無數次失敗,偶爾在機緣巧合之下取得成果,還要費勁功夫反向檢測這種新材料的性質。但有一批材料科學家轉換思路,使用計算機模型和機器學習算法生成海量假想的材料,建立數據庫,從中篩選出值得合成的材料,再通過檢索這些材料可能擁有的性質進行具體應用測試,比如將這種材料用作導體表現如何、用作絕緣體性能又如何、這種材料是否具有磁性、那種材料的抗壓力是多少。 2016年5月5日,Nature 將一篇機器學習算法改變材料發現方式的論文放上封面,并提出“從失敗中學習”:美國研究者利用機器學習算法,用失敗或不成功的實驗數據預測了新材料的合成,并且在實驗中機器學習模型預測的準確率超過了經驗豐富的化學家,這意味著機器學習將改變傳統材料發現方式,發明新材料的可能性也大幅提高。 使用計算機模型和機器學習算法的好處在于,失敗的實驗數據也能用作下一輪的輸入,繼而不斷完善算法。倫敦帝國學院研究副院長、材料科學家 Neil Alford 以觀察者身份發表評論,這種做法代表了實驗科學和理論科學的真正融合。 加州大學伯克利分校的材料科學家 Gerbrand Ceder 在接受 Nature 記者采訪時說,使用機器學習算法有望大幅提高新材料發現的速度和效率。Ceder 是最早開始使用計算模型和機器學習生成假想材料的科學家之一,他以化合物磷酸鐵鋰為例:磷酸鐵鋰最初于 20 世紀 30 年代被合成,但當時世人并不認為這種材料會有多大用途,直到 1996 年科學家發現磷酸鐵鋰大有取代現有鋰離子電池的可能。 哈佛大學的研究者采用計算材料科學思路,使用“失敗”數據,成功完成了這篇被選為本期 Nature 封面的論文。 有了機器學習,再也不怕失敗了 論文標題:Machine-learning-assisted materials discovery using failed experiments 作者:Paul Raccuglia、Katherine C. Elbert、Philip D. F. Adler、Casey Falk、Malia B. Wenny、Aurelio Mollo、Matthias Zeller、Sorelle A. Friedler、Joshua Schrier、Alexander J. Norquist 來源:Nature 533, 73–76 (05 May 2016) doi:10.1038/nature17439 使用失敗實驗在機器學習輔助下進行材料發現(摘譯) 對諸如有機模板合成的金屬氧化物、金屬有機骨架(MOF)和有機鹵化鈣鈦礦等無機-有機雜化材料的研究已經持續了數十年。水熱法和(非水)溶劑熱合成已經產生了數千種新材料,這些新材料幾乎包含了元素周期表中的所有元素。然而,我們仍未充分理解這些化合物的形成過程,對新化合物的開發主要依靠試探性合成。在Materials Genome Initiative的推動下,計算機模擬和數據驅動的方法成為對實驗試錯方法的替代選擇。三個主要的策略是:基于模擬來預測材料的電荷遷移率、光生伏打性質、氣體吸附能力和鋰離子嵌入等物理性質,從而確定那些有前景的合成對象。通過整合高通量合成與測量工具,從大規模實驗數據中確定材料的結構-性質關系。基于諸如沸石結構分類和氣體吸附性能等相似的晶體結構,對材料進行聚類。 在這里,我們展示了用反應數據訓練機器學習算法,繼而預測模板合成的釩亞硒酸鹽結晶過程的反應結果。我們使用未發表的“黑暗”反應信息,這些反應信息來自那些失敗或未成功的水熱合成實驗。我們從實驗室的筆記本檔案中收集了這些信息,并運用化學信息學技術為筆記本中的原始數據添加了理化性質描述。我們用由此產生的數據訓練機器學習模型預測反應能否成功。當使用先前未經測試的、市場有售的有機砌塊進行水熱合成實驗時,我們的機器學習模型獲得了比傳統人類策略更好的效果,并成功預測了有機模板合成的無機物的形成條件,成功率達 89%。對機器學習模型進行反演后,可以揭示出關于成功產物形成條件的嶄新假設。 實驗中機器學習模型反饋機制示意圖 圖1|“黑暗”反應的反饋機制示意圖。使用從歷史反應數據中產生的機器學習模型推薦可供執行的新反應,并產生關于結晶過程的假設,這些假設可以被人類解讀。另,SVM 是支持向量機的縮寫。來源:Nature 533, 73–76 機器學習模型超越傳統人類策略 圖2|關于模板合成的釩亞硒酸鹽晶體形成的實驗結果比較,以胺相似度為橫軸。深色條表示機器學習模型的預測,淺色條表示傳統的人類策略。產生了多晶和大單晶產物的反應分別顯示為藍色和綠色。縱軸顯示了反應出現所指示的結果的概率。機器學習模型比人類策略更成功地預測了晶體形成的條件,無論用模板合成的胺數據庫中已知實例時所具有的系統相似性如何。來源:Nature 533, 73–76 支持向量決策樹 圖3|從 SVM 中得到的決策樹。橢圓表示決策節點,矩形代表反應結果容器,三角形代表被切除的子樹。箭頭上的數字對應于決策屬性的測試值。每個反應結果容器(矩形)對應一個特定的反應結果值(“3”或“4”,如圖所示)。括號中的數字是正確地分配給該容器的反應的數量(任何被錯誤分類的反應都用正斜杠標識)。分數值表示反應具有不確定的結果,這是由決策樹的較高位置的屬性值缺失導致的。那些包含了大多數成功反應的容器被分為三個不同的組(分別用綠色,藍色和紅色陰影標示)。每個彩色子樹定義了一組有助于單晶形成的特定反應參數。通過審查這些條件,可以得出相應的化學假設,這些假設分別對應于低、中和高極化胺。來源:Nature 533, 73–76 算法生成的假設及其化學三維結構模型 圖4|對從模型中產生的三個假設及每個假設結構的圖示。單晶形成所需的實驗條件很大程度上取決于胺屬性。小的、低極化的胺需要不存在與之競爭的 Na+ 離子,也需要較長的反應時間,以避免無機砌塊沉淀。球形、低投影尺寸的胺則需要包含 VOSO4 等試劑的 V4+ ,因為它們不能直接從常見的 V5+ 前體中產生 V4+。長的三胺和四胺要求草酸鹽反應物,以改變無機次級砌塊的電荷密度。這三個假設分別對應于圖 3 中的綠色、藍色和紅色子樹。 我們的機器學習方法使我們能夠利用包含歷史反應的化學信息,并闡明支配反應結果的因素。機器學習模型對先前未經測試的有機胺的預測準確率,超過了依靠多年來形成的化學直覺所實現的準確率。此外,我們的方法以可驗證的假設形式揭示了支配反應結果的化學原理,它能更成功地制造新化合物,也能產生有用的化學信息,這代表了試探性反應的革新性進步。 AI 真能發現神奇材料嗎? 計算材料科學還是一門新興的學科,其主要推動著就是上文提到的加州大學伯克利分校的材料科學家 Gerbrand Ceder 。受人類基因組計劃的啟發,Ceder 想到了使用高通量數據驅動的方法進行材料發現。Ceder 認為,人類基因組本身并非能作為疾病治療的方案,但卻可以為醫學提供研發疾病治療方案的海量基本定量數據——材料科學是不是也能借鑒遺傳科學的方法,用“材料基因組”(該詞為 Ceder 所創)編碼各種化合物呢,就像 DNA 堿基對編碼蛋白質等各種生物材料一樣? 2003 年,Ceder 研究組創建了一個量子力學計算數據庫,用于預測金屬合金最有可能形成的晶體結構,因為這是發明新材料的基礎。在過去,即使使用用超級計算機也需要通過多次反復長期大量試錯找到合金的基態。但在 Ceder 研究組 2003 年發表的一篇論文中,他們描述了一種捷徑:研究人員首先計算出一些常見二元合金晶體結構的能量,建立小型數據庫,然后設計了一種機器學習算法,這種算法可以從上述數據庫中提取模式,繼而預測出新合金基態的可能值。結果表明,Ceder 研究組設計的這種機器學習算法表現良好,大大縮減了計算時間。 2006年,Ceder 在 MIT 開始了 Materials Genome Project,用改進后的機器學習算法預測能用作電動車電池的鋰材料。2010年,該計劃的數據庫里已經包含了2萬種計算機預測的化合物。另一方面,Ceder 研究組成員 Stefano Curtarolo 在 2006 年去了杜克大學并在那里建立了自己的實驗室——Center for Materials Genomics,專門研究金屬合金,Curtarolo 研究組與其他兩家研究機構合作,逐漸改進 2003 年的機器學習算法并拓展數據庫,構建了 AFLOW 系統,能計算已知的晶體結構并且自動預測新的晶體結構。 2011年6月,白宮宣布斥資幾億美元進行 Materials Genome Initiative(MGI),由此開始計算材料科學這門學科成為主流。如今,除了 Ceder 的 Materials Project,還有原 Ceder 研究組成員、現杜克大學材料科學家 Stefano Curtarolo 的數據庫 AFLOWlib,以及西北大學材料研究者 Chris Wolverton 在 Ceder 思路啟發下,用自己研發的算法和模型建立的數據庫 Open Quantum Materials Database(OQMD)。 這3大數據庫都含有從材料科學界廣泛使用的無機晶體結構數據庫中提取的5萬種材料,這些都是曾經被制造出來的固體,但其導電性和磁性尚未被徹底研究。其不同之處在于:Ceder 的 Materials Project 側重沸石、鋰電池相關以及金屬有機骨架結構材料,并以較高的標準衡量是否將計算機預測的材料納入數據庫;Curtarolo 的 AFLOWlib 是最大的數據庫,包含 100 多萬種材料和幾十萬種假想材料,但相應的里面也不乏只能存在一瞬間的材料;Wolverton 的 OQMD 有大約 40 萬種假想材料,其中鈣鈦礦相關的尤其豐富,此外正如名字中 Open 那樣,用戶可以下載整個數據庫。 目前這3大數據庫都在用各自的方法不斷補充數據、完善算法,但離理想還有很大距離。當前的機器學習算法相對擅長預測某種晶體是否穩定,但在預測吸光性和導電性時則會出現很大誤差。不過,Materials Project 已經發現了幾種有望超越現有鋰離子電池陰極材料性能的材料,以及有可能提高太陽能電池能量轉化率的金屬氧化物。都柏林三一學院的研究人員使用 AFLOWlib 預測了 20 種可用于制作傳感器或計算機存儲器的磁性材料,并且成功合成了其中的兩種,同時經實驗證明其磁性與預測非常接近,相關論文已經在 Nature 發表。 歐洲也有類似的計算材料計劃:由瑞士洛桑聯邦理工學院(EPFL)為首的一批計算材料科研機構共同組建了 MARVEL,EPFL 的材料科學家 Nicola Marzari 是該項目的負責人。Marzari 正在使用新的計算平臺制作一個叫做 Materials Cloud 的數據庫,主要用于搜索石墨等由一層原子或分子組成的“二維”材料,這類材料可以在納米電子、生物醫學設備領域得到廣泛應用。Marzari 的 Materials Cloud預 計今年晚些時候啟動,學界也對此表示了普遍的關注。據 Mzrzari 預計,到 Materials Cloud 開放時,系統將會得出大約 1500 種有望進入試驗階段的二維材料結構。 人工智能幫助科學家發現新材料。來源:Nature 不過,計算材料的發現也不全是好的結果:EPFL 中心的計算化學家 Berend Smit 及其研究組篩選了計算機預測的 65 萬種材料后得出結論,當前用于存儲甲烷的材料基本已經是最好的了,縱使得到改善,存儲效率也只能微量提升,這說明美國寄希望于重大技術突破(如使用納米多孔材料存儲甲烷)而設定的能源目標很可能是不現實的。 目前,Ceder 和 Curtarolo 都在努力開發更好的機器學習算法,從已知化合物合成過程中提取規律。Marzari 告訴 Nature 記者,材料科學已經從手工時代進入了產業化階段,雖然現在市面上還沒有計算材料得到應用,但他相信十年后不僅會有,而且可能會有很多。 不過,就連支持使用計算機和機器學習生成假想材料的科學家也指出,要從假想材料到現實落地還有很長一段距離。首先,現有數據庫所含有的材料數據本身就不多,連現有已知材料都沒有收錄完全,更被說計算機生成的材料了。其次,這種用數據驅動的發現方法并不適用于所有的材料(目前算法只能預測完美晶體)。再者,即使計算機生成了一種極有前景的材料,要在實驗室里將其合成、制為實物也仍然可能需要花費很長時間。Ceder 對 Nature 記者說,計算機隨時都在生成有趣的新材料,但有時候半年多時間都無法在實驗室里將其制造出來。換句話說,在理論上合成一種材料相對簡單,但要在實驗室里把它做出來很難。 但是,材料科學家對于發現新的化合物充滿信心,他們相信還有數不清的新材料有待合成,而這些新材料將對電子工業、能源產業、機器人產業、健康醫療和交通運輸帶來巨大改變。 |