2022 年 1 月 6 日,備受關注的 DC2021 分布式數據庫開發者大會于線上正式召開,由中國電子技術標準化研究院指導,CSDN 主辦、OceanBase 承辦,多個知名社區協辦。幾年前,分布式數據庫技術還是大家津津樂道的明日新星,隨著 2021 這一數據庫技術的變革之年,回首望去,未來已來,分布式數據庫的時代大幕已然悄然拉開。 本次大會以“數聚未來”為主題,邀請了一眾業內知名人士,包括 MySQL 之父、MariaDB創始人以及PostgreSQL全球開發組聯合創始人,同時還有 OceanBase、TDSQL、GuassDB、PingCAP、巨杉等國內頂級分布式數據庫行業先行者,技術專家帶來精彩的演講分享,為開發者們貢獻了一場分布式數據庫領域的盛宴。 分布式數據庫產業現狀 分布式數據庫發展的如火如荼,在面對各種海量數據的場景化需求時,分布式數據庫更能為企業業務提供良好支持,而優秀的數據庫產品可以為企業發展插上翅膀,推動行業騰飛。 通過大會上專家們的分享可以發現,目前分布式數據庫的現狀主要是從單一化向多樣化去發展。隨著應用場景和數據量的增加,并發和吞吐量的要求也越來越高,用一款數據庫去適用所有場景逐漸變得不可能。這也就帶來了一個數據庫的趨勢,即一種數據庫適應一種或者多種場景,數據庫的種類會越來越多,呈碎片化趨勢。除此之外,數據庫也從單機轉向分布式.目前的分布式數據庫已經相當普及了,從原來的關系型數據庫到面向分布式的數據庫,這種趨勢和浪潮下,面臨的是數據庫的碎片化。 中國電子技術標準化研究院研究室主任楊麗蘊表示,隨著分布式數據庫的發展變革,技術進步和數字化的深入,數據正在以指數計數速度增長。在去年,國家明確表示數據已成為第五大生產要素,這代表數據越來越重要了。這一趨勢對于數據管理、分析的數據庫軟件,既是重大的發展機遇,也是重要挑戰。國內不乏以 OceanBase、TDSQL、巨杉為主的國內優秀分布式數據庫產品正在去承擔創新的數據庫業務,并在逐步進入核心系統領域。 在全球范圍內,伴隨著互聯網的快速發展,中國分布式數據庫發展突飛猛進,并快速拓展應用到各行各業。2010 年,OceanBase 正式成立,從淘寶到支付寶 ,從支付寶走向更廣闊的世界,逐漸成為全球知名的自研數據庫。 OceanBase 創始人陽振坤詳細的介紹了數據庫的誕生、發展以及目前面臨的挑戰,風趣幽默的用“小馬拉大車”的形象比喻,讓與會者對分布式數據庫的了解更加清晰。通過對 HTAP 和 OLTP 的簡單介紹,一方面說明了兩者的根本差異,一方面說明 HTAP 目前面臨一些挑戰。在陽振坤眼里,一個好的分布式數據庫,是“一個”可水平擴展且一份數據存儲既進行交易處理又進行分析處理的數據庫。它具備“一個數據庫”、可水平擴展和 HTAP 的三個重要特性。 陽振坤引用了 Google Spanner 論文的一句話:盡管有人說 one-fits-all,但包含交易處理、分析處理和全文搜索的單個系統是客戶最高優先級的需求,人類的智慧是無窮的,HTAP 的這些挑戰部分已經在克服,在不久的將來所有的這些挑戰都將會被克服。 騰訊分布式數據庫 TDSQL 首席架構師李海翔介紹了 TDSQL 的關鍵技術《數據異常體系化技術研究》,其主要講解了為什么要定義數據異常,為什么要成體系化的定義數據異常;是怎么成體系化的去定義數據異常;怎么用數據異常來講清楚數據異常和隔離級別的關系;講清楚數據異常與一致性之間的關系。把整個數據庫事務處理領域里面幾個重要的概念都講的比較清楚,用數據異常這個角度講清楚什么叫做一致性,什么叫做隔離級別。 近幾年,隨著云計算的不斷發展,分布式數據庫與云計算也可謂是形影不離,華為數據庫首席架構師馮柯現場分享解讀了《華為云 GaussDB 深耕創新,打造根技術競爭力》,幫助與會者了解華為在數據庫的戰略,以及基于這個戰略確定的六大基礎研究方向:高可用、軟硬協同、混合負載、云原生、安全可信、智能化。 在確定六大基礎研究方向之外,同時華為對于數據庫戰略有三點優勢:研發能力、全站能力、生態建設,基于以上三點優勢,最終確定了華為在數據庫的戰略,通過應用軟硬件協同,打造開放生態,打造 GaussDB 全場景的云服務。 最后,OceanBaseCEO 楊冰分享了《最好的時代,共建分布式數據庫未來》,通過回顧過去一年行業及 OceanBase 的發展,再次印證了分布式數據庫發展勢不可擋。 主論壇專家們的對話環節,主題是傳統數據庫向分布式數據庫轉型的價值及趨勢。在各位國內分布式數據庫的頂尖行業代表的精彩分享下,可以窺見分布式數據庫的發展以及產業的現狀更加清晰,時代的大潮不會無風而起,無數優秀的開發者、創新者就是這場大潮的推動人。 OceanBase 在行業中的實踐與方法在上午的活動中,值得關注的當屬 OceanBase CTO 楊傳輝對于分布式數據庫整體的技術發展進行的解讀。從 2010 年開始螞蟻集團便致力于 OceanBase 的研發,如今不論在性能、可擴展性、兼容性還是開源方面都取得了不錯的成果。 一體化架構作為原生分布式數據庫的佼佼者,OceanBase 背后的主要核心技術就是一體化架構。通過一體化架構,OB 能夠發揮出雙重技術優勢:
OceanBase 一體化架構的核心技術理念那就是既要分布式,又不能犧牲性能,用一個通俗的話來講就是兩手抓,兩手都要硬!每一個數據庫都離不開 SQL、事務和存儲三個技術模塊,如果將事務層和存儲層分離,再抽取一個單獨的分布式KV系統,可以簡單直接的實現一個分布式數據庫,但是會犧牲單機性能,造成系統高延遲,不適合在核心業務系統使用;然而,OceanBase 通過一體化架構將事務層和存儲層有機結合,不犧牲單機性能的同時又能做到與集中數據庫相當的水平,完全可以適用于核心業務場景。 OceanBase 的一體化架構包括了三個核心技術模塊:
OceanBase 的核心理念是把簡單留給客戶,把復雜留給數據庫,因此選擇了對客戶更加友好,更加簡單的一體化架構。 開源版本在 2021 年 6 月份,OceanBase 正式面向全球開源開放,每一個用戶都可以通過下載 OceanBase 社區版快速學習和使用。OceanBase 在開源上與其他項目可能不同,十年內核能力的積累,大量的代碼開源,必然花費了很多心思和努力。開源是為了更好的發展,相信點點滴滴將匯聚成滿天星河,開源會越做越好。 同時,OceanBase 在社區建設上也是大力發展,一個好的社區必然離不開開源的支撐,能夠加速生態建設。通過開源,能夠更快速讓更多的數據庫管理者,使用者或者說學習者,都能夠參與到這個分布式數據庫生態里面,這樣能夠比以前 Oracle 建設生態要更快,通過開源能夠更快的完成生態建設。 技術路徑OceanBase 自 2010 年立項以來,已經過了 11 年,一直保持著不斷的突破和創新。同樣的,分布式數據庫也經歷了三次技術迭代,從最早的 NoSQL 系統走向今天的原生分布式數據庫。
OceanBase 十一年以來一直堅持自主研發,秉持只有自主研發才能完全掌控內核,只有完全掌控內核才能夠持續在原生分布式數據庫領域開拓創新。所以,OceanBase 的原生分布式數據庫也經歷了三次迭代:
2021 年 OceanBase 又取得五大核心產品技術突破:
OceanBase 也是全球唯一一個在事務處理和數據分析兩個領域都獲得過世界第一的原生分布式數據庫。 產業進步與開源發展長期以來,數據庫領域并沒有太大的突破或進展,由于它本身是一個門檻比較高的行業,長期就是由幾家公司來占據市場份額,所以導致很長一段時間內的開源分布式數據庫發展升量很足,但是在整個市場份額上未必有優勢,這是很長一段時間里整個開源分布式數據庫發展的整體情況。 但是從 2021 年 1 月開始出現了一個很大的變化,在市場產品占有率層面,開源的產品第一次超過了閉源的商業產品,這是一個好的現象,同樣的,分布式數據庫在市場上的競爭也是日漸增長,說明分布式數據庫的價值以及它的架構上的優勢正在越來越被大家所認可。 OceanBase 在社區開源發展方面做的可圈可點。從數據層面來看,社區總用戶 23000 名,百名外部開發者, 超百企業用戶在社區進行深度的探索。在社區建設上,在 Gitee 和 GitHup上Star 數已經超過 4000 次,社區 Fork 數 860,Commit數超過 640。在最為關鍵的社區活躍度上,每日和用戶的溝通數次數超過了 300 次,并且社區問答數迄今為止已經超過 4600 次。在技術布道方向連接了超過 3500 名開發者。這些數據表明:OceanBase 社區正在蓬勃發展,在未來將會更上一個臺階。 國外和國內對開源社區的組織形式有什么區別呢?主要有幾下幾點:
總體來說,現在是一個后來者可以居上,技術價值可以無限接近于商業價值的美好時代。而未來,分布式數據庫的發展基于開源和技術的發展,無疑將會有更加廣闊的發展前景。 |