從一開始的Google搜索,到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、證券投資、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng),無一不跟知識圖譜相關(guān)。 隨著移動互聯(lián)網(wǎng)的發(fā)展,萬物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長,而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料。如果說以往的智能分析專注在每一個個體上,在移動互聯(lián)網(wǎng)時代則除了個體,這種個體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分。 在一項任務(wù)中,只要有關(guān)系分析的需求,知識圖譜就“有可能”派的上用場。 知識圖譜的表示 知識圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識圖譜,也可以把它認(rèn)為是一個知識庫。這也是為什么它可以用來回答一些搜索相關(guān)問題的原因,比如在Google搜索引擎里輸入“Who is the wife of Bill Gates?”,我們直接可以得到答案-“Melinda Gates”。這是因為我們在系統(tǒng)層面上已經(jīng)創(chuàng)建好了一個包含“Bill Gates”和“Melinda Gates”的實(shí)體以及他倆之間關(guān)系的知識庫。所以,當(dāng)我們執(zhí)行搜索的時候,就可以通過關(guān)鍵詞提取("Bill Gates", "Melinda Gates", "wife")以及知識庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。 在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會擁有各自的屬性,比如人可以有“姓名”和“年齡”。當(dāng)一個知識圖譜擁有屬性時,我們可以用屬性圖(Property Graph)來表示。下面的圖表示一個簡單的屬性圖。李明和李飛是父子關(guān)系,并且李明擁有一個138開頭的電話號,這個電話號開通時間是2018年,其中2018年就可以作為關(guān)系的屬性。類似的,李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等。 這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場景,也可以很好地描述業(yè)務(wù)中所包含的邏輯。除了屬性圖,知識圖譜也可以用RDF來表示,它是由很多的三元組(Triples)來組成。RDF在設(shè)計上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù),但不支持實(shí)體或關(guān)系擁有屬性,如果非要加上屬性,則在設(shè)計上需要做一些修改。目前來看,RDF主要還是用于學(xué)術(shù)的場景,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(比如用來存儲屬性圖)的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn),在文本里不多做解釋。 知識抽取 知識圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對于垂直領(lǐng)域的知識圖譜來說,它們的數(shù)據(jù)源主要來自兩種渠道:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫表并以結(jié)構(gòu)化的方式存儲;另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在所以是非結(jié)構(gòu)化的數(shù)據(jù)。 前者一般只需要簡單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語言處理等技術(shù)來提取出結(jié)構(gòu)化信息。比如在上面的搜索例子里,Bill Gates和Malinda Gate的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來,比如維基百科等數(shù)據(jù)源。 信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)。在下面的圖中,我們給出了一個實(shí)例。左邊是一段非結(jié)構(gòu)化的英文文本,右邊是從這些文本中抽取出來的實(shí)體和關(guān)系。在構(gòu)建類似的圖譜過程當(dāng)中,主要涉及以下幾個方面的自然語言處理技術(shù): a. 實(shí)體命名識別(Name Entity Recognition) b. 關(guān)系抽取(Relation Extraction) c. 實(shí)體統(tǒng)一(Entity Resolution) d. 指代消解(Coreference Resolution) 知識圖譜的存儲 知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲。它們之間的區(qū)別如下圖所示。RDF一個重要的設(shè)計原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上。其次,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景。 根據(jù)最新的統(tǒng)計(2018年上半年),圖數(shù)據(jù)庫仍然是增長最快的存儲系統(tǒng)。相反,關(guān)系型數(shù)據(jù)庫的增長基本保持在一個穩(wěn)定的水平。同時,我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫,它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高,但唯一的不足就是不支持準(zhǔn)分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但這些系統(tǒng)相對較新,社區(qū)不如Neo4j活躍,這也就意味著使用過程當(dāng)中不可避免地會遇到一些刺手的問題。如果選擇使用RDF的存儲系統(tǒng),Jena或許一個比較不錯的選擇。 知識圖譜在其他行業(yè)中的應(yīng)用 除了金融領(lǐng)域,知識圖譜的應(yīng)用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育、證券投資、推薦等等。其實(shí),只要有關(guān)系存在,則有知識圖譜可發(fā)揮價值的地方。 在這里簡單舉幾個垂直行業(yè)中的應(yīng)用。 比如對于教育行業(yè),我們經(jīng)常談?wù)搨性化教育、因材施教的理念。其核心在于理解學(xué)生當(dāng)前的知識體系,而且這種知識體系依賴于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)、評測數(shù)據(jù)、互動數(shù)據(jù)等等。為了分析學(xué)習(xí)路徑以及知識結(jié)構(gòu),我們則需要針對于一個領(lǐng)域的概念知識圖譜,簡單來講就是概念拓?fù)浣Y(jié)構(gòu)。在下面的圖中,我們給出了一個非常簡單的概念圖譜:比如為了學(xué)習(xí)邏輯回歸則需要先理解線性回歸;為了學(xué)習(xí)CNN,得對神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對學(xué)生的評測、互動分析都離不開概念圖譜這個底層的數(shù)據(jù)。 在證券領(lǐng)域,我們經(jīng)常會關(guān)心比如“一個事件發(fā)生了,對哪些公司產(chǎn)生什么樣的影響?” 比如有一個負(fù)面消息是關(guān)于公司1的高管,而且我們知道公司1和公司2有種很密切的合作關(guān)系,公司2有個主營產(chǎn)品是由公司3提供的原料基礎(chǔ)上做出來的。 其實(shí)有了這樣的一個知識圖譜,我們很容易回答哪些公司有可能會被這次的負(fù)面事件所影響。當(dāng)然,僅僅是“有可能”,具體會不會有強(qiáng)相關(guān)性必須由數(shù)據(jù)來驗證。所以在這里,知識圖譜的好處就是把我們所需要關(guān)注的范圍很快給我們?nèi)Χā=酉聛淼膯栴}會更復(fù)雜一些,比如既然我們知道公司3有可能被這次事件所影響,那具體影響程度有多大? 對于這個問題,光靠知識圖譜是很難回答的,必須要有一個影響模型、以及需要一些歷史數(shù)據(jù)才能在知識圖譜中做進(jìn)一步推理以及計算。 實(shí)踐上的幾點(diǎn)建議 首先,知識圖譜是一個比較新的工具,它的主要作用還是在于分析關(guān)系,尤其是深度的關(guān)系。所以在業(yè)務(wù)上,首先要確保它的必要性,其實(shí)很多問題可以用非知識圖譜的方式來解決。 知識圖譜領(lǐng)域一個最重要的話題是知識的推理。 而且知識的推理是走向強(qiáng)人工智能的必經(jīng)之路。但很遺憾的,目前很多語義網(wǎng)絡(luò)的角度討論的推理技術(shù)(比如基于深度學(xué)習(xí),概率統(tǒng)計)很難在實(shí)際的垂直應(yīng)用中落地。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論,除非我們有非常龐大的數(shù)據(jù)集。 最后,還是要強(qiáng)調(diào)一點(diǎn),知識圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性。 總之知識圖譜是一個既充滿挑戰(zhàn)而且非常有趣的領(lǐng)域。只要有正確的應(yīng)用場景,對于知識圖譜所能發(fā)揮的價值還是可以期待的。我相信在未來不到2,3年時間里,知識圖譜技術(shù)會普及到各個領(lǐng)域當(dāng)中。 分享安排 一、知識圖譜概論 1.1知識圖譜的起源和歷史 1.2知識圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識圖譜 1.3知識圖譜的本質(zhì)和價值 1.4知識圖譜VS傳統(tǒng)知識庫VS關(guān)系數(shù)據(jù)庫 1.5經(jīng)典的知識圖譜 1.5.1經(jīng)典的CYC, WordNnet, WikiData, DBpedia, YAGO, NELL等知識庫 1.5.2行業(yè)知識圖譜: Google知識圖譜,微軟實(shí)體圖,阿里知識圖譜,醫(yī)學(xué)知識圖譜,基因知識圖譜等知識圖譜項目 二、知識圖譜應(yīng)用 2.1知識圖譜應(yīng)用場景 2.2知識圖譜應(yīng)用簡介 2.2.1知識圖譜在數(shù)字圖書館上的應(yīng)用 2.2.2知識圖譜在國防、情報、公安上的應(yīng)用 2.2.3知識圖譜在金融上的應(yīng)用 2.2.4知識圖譜在電子商務(wù)中的應(yīng)用 2.2.5知識圖譜在農(nóng)業(yè)、醫(yī)學(xué)、法律等領(lǐng)域的應(yīng)用 2.2.6知識圖譜在制造行業(yè)的應(yīng)用 2.2.7知識圖譜在大數(shù)據(jù)融合中的應(yīng)用 2.2.8知識圖譜在人機(jī)交互(智能問答)中的應(yīng)用 三、知識表示與知識建模 3.1知識表示概念 3.2 知識表示方法 a.語義網(wǎng)絡(luò) b.產(chǎn)生式規(guī)則 c.框架系統(tǒng) d.描述邏輯 e.本體 f.RDF和RDFS g.OWL和OWL2 Fragments h.SPARQL查詢語言 i.Json-LD、RDFa、HTML5 MicroData等新型知識表示 3.3典型知識庫項目的知識表示 3.4知識建模方法學(xué) 3.5知識表示和知識建模實(shí)踐 1.三國演義知識圖譜的表示和建模實(shí)踐案例 2.學(xué)術(shù)知識圖譜等 四、知識抽取與挖掘 4.1知識抽取基本問題 a.實(shí)體識別 b.關(guān)系抽取 c.事件抽取 4.2數(shù)據(jù)采集和獲取 4.3面向結(jié)構(gòu)化數(shù)據(jù)的知識抽取 a.D2RQ b.R2RML 4.4面向半結(jié)構(gòu)化數(shù)據(jù)的知識抽取 a.基于正則表達(dá)式的方法 b.基于包裝器的方法 4.5.面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取 a.實(shí)體識別技術(shù)(基于規(guī)則、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、預(yù)訓(xùn)練等方法) b.關(guān)系抽取技術(shù)(基于模板、監(jiān)督、遠(yuǎn)程監(jiān)督、深度學(xué)習(xí)等方法) c.事件抽取技術(shù)(基于規(guī)則、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法) 4.6.知識挖掘 a.實(shí)體消歧b.實(shí)體鏈接c.類型推斷 d.知識表示學(xué)習(xí) 4.7知識抽取上機(jī)實(shí)踐 A.面向半結(jié)構(gòu)化數(shù)據(jù)的三國演義知識抽取 B.面向文本的三國演義知識抽取 C.人物關(guān)系抽取 五、知識融合 5.1知識融合背景 5.2知識異構(gòu)原因分析 5.3知識融合解決方案分析 5.4.本體對齊基本流程和常用方法 a.基于文本的匹配 b.基于圖結(jié)構(gòu)的匹配 c.基于外部知識庫的匹配 e.不平衡本體匹配 d.跨語言本體匹配 f.弱信息本體匹配 5.5實(shí)體匹配基本流程和常用方法 a.基于相似度的實(shí)例匹配 b.基于規(guī)則或推理的實(shí)體匹配 c.基于機(jī)器學(xué)習(xí)的實(shí)例匹配 d.大規(guī)模知識圖譜的實(shí)例匹配 (1)基于分塊的實(shí)例匹配 (2)無需分塊的實(shí)例匹配 (3)大規(guī)模實(shí)例匹配的分布式處理 5.6 知識融合上機(jī)實(shí)踐 1.百科知識融合 2.OAEI知識融合任務(wù) 六、存儲與檢索 6.1.知識圖譜的存儲與檢索概述 6.2.知識圖譜的存儲 a.基于表結(jié)構(gòu)的存儲 b.基于圖結(jié)構(gòu)的存儲 6.3.知識圖譜的檢索 a.關(guān)系數(shù)據(jù)庫查詢:SQL語言 b數(shù)據(jù)庫查詢:SPARQL語言 6.4.上機(jī)實(shí)踐案例:利用GraphDB完成知識圖譜的存儲與檢索 七、知識推理 7.1.知識圖譜中的推理技術(shù)概述 7.2.歸納推理:學(xué)習(xí)推理規(guī)則 a.歸納邏輯程設(shè)計Øb.關(guān)聯(lián)規(guī)則挖掘 c.路徑排序算法 上機(jī)實(shí)踐案例:利用AMIE+算法完成Freebase數(shù)據(jù)上的關(guān)聯(lián)規(guī)則挖掘 7.3.演繹推理:推理具體事實(shí) Ø a.馬爾可夫邏輯網(wǎng) b.概率軟邏輯 7.4.基于分布式表示的推理 a. TransE模型及其變種 b.RESCAL模型及其變種 c.(深度)神經(jīng)網(wǎng)絡(luò)模型介紹 d.表示學(xué)習(xí)模型訓(xùn)練 7.5.上機(jī)實(shí)踐案例:利用分布式知識表示技術(shù)完成Freebase上的鏈接預(yù)測 八、語義搜索 8.1.語義搜索概述 8.2.搜索關(guān)鍵技術(shù) a.索引技術(shù):倒排索引 b.排序算法:BM25及其擴(kuò)展 8.3.知識圖譜搜索 a.實(shí)體搜索 b.關(guān)聯(lián)搜索 8.4.知識可視化 a.摘要技術(shù) 8.5.上機(jī)實(shí)踐案例:SPARQL搜索 九、知識問答 9.1.知識問答概述 9.2.知識問答基本流程 9.3.相關(guān)測試集:QALD、WebQuestions等 9.4.知識問答關(guān)鍵技術(shù) a.基于模板的方法 b.語義解析 c.基于深度學(xué)習(xí)的方法 9.5.上機(jī)實(shí)踐案例:DeepQA、TemplateQA 學(xué)習(xí)和關(guān)注人工智能技術(shù)與咨詢,了解更多資訊!!! |