作者:郭華 先想象這樣一個場景—— 你家有個天臺,上面什么都沒有。 你一筐筐的把土背上去,鋪了一小塊地,然后又挑水施肥,種了幾壟黃瓜、幾棵西紅柿和一小簇青菜。 你照顧的很用心,他們長勢也很不錯,紅紅綠綠,晨曦中沾滿露水,散發出泥土的氣息。 然后等到秋天,你興沖沖跑上天臺,結果門一開,噗的驚飛一片麻雀,噗噗啦啦之后只見黃瓜斷了,西紅柿也滿是洞,他們綠的紅的汁,滴在被爪子踩的不成樣子的青菜里,一片狼藉。 而且這還是個溫暖又明媚的午后。 于是你聞著別處的稻香,在金黃的秋風里,感到一陣凄涼。 ——這時你再看Cloudera的故事,大概才能感同身受。 01 被仰望的 Cloudera的故事要從Hadoop開始說,而說Hadoop就離不開Doug Cutting。 Doug Cutting現在是Apache基金會的主席,標準的大神。在我心目中,他和谷歌AI負責人Jeff Dean、Linux之父Linus并稱三大天王,高山仰止,令我自慚形穢,最終放棄編程。 2004年,Doug Cutting正在搗鼓Nutch,Nutch是一個開源搜索引擎,關于它和Lucene的故事又是一個傳奇,可以再開一篇單獨講。總之,Doug Cutting碰到了一些大規模索引和分布式計算的問題,恰好這時看到谷歌發表的兩篇論文里有相似場景及解決方案。仔細研究之后,他覺得非常有道理,于是很快就把論文里的技術實現了,包括一個分布式計算框架MapReduce和一個分布式存儲系統HDFS,然后放進了自己的Nutch里。 2006年,Doug Cutting預感到這種數據處理技術有著更大的潛力,便把MapReduce和HDFS從Nutch中獨立出來,合成一個后開源了,取名為Hadoop。那會他兒子剛好兩歲,不大會講話,總管自己的玩具象叫Hadopp,Doug Cutting靈機一動,便把這個名字拿了過來。 同年,為了進一步發展Hadoop,Doug Cutting決定加入互聯網公司里最大的雅虎。 大概他也沒想到,大數據時代的序幕就這樣被拉開了。 在雅虎,Hadoop的集群規模很快過千,Doug Cutting也認識了雅虎副總裁Amr Awadallah。 為了對抗日漸崛起的谷歌,Amr當時正在研究如何讓雅虎搜索更智能,也碰到很多性能、成本與彈性的問題。在Doug Cutting的建議下,他開始嘗試Hadoop。在隨后的兩年里,Amr基于Hadoop改造了之前的數據處理系統,結果可以說是驚人的好——完成相同的工作,新系統成本不過是之前的十分一,更重要的,他們還能做之前根本無法想象的事情,比如全量分析以PB記的數據。 這讓Amr大為驚喜,他進一步想,這些問題應該不止雅虎會碰到,Hadoop這種革命性的數據處理能力里蘊含著巨大商機。于是他萌生了一種想法,創業。這并不是Amr的第一次創業,實際上他在很早之前就創立了一家叫做VivaSmart的公司,然后2000年公司被雅虎收購,他才隨之加入雅虎。 Amr召集起幾個志同道合的人,包括兩位分別來自谷歌和Facebook的工程師和一位來自Oracle的經理人Mike Olson,很快在硅谷成立了一家公司,自己擔任CTO。 公司的名字叫Cloudera,CEO是Mike Olson。 Mike Olson何許人也?其實他和Amr一樣,也是自己的公司被收購后加入大公司的。在Oracle之前,他曾是Sleepycat的CEO,而在Sleepycat之前,他又參與過IIIustra的創業。這兩家都是在開源軟件上創業的商業公司,Sleepycat基于Berkeley DB,IIIustra基于PostgreSQL。這幾乎和他們要做的Cloudera一模一樣。 那時是2008年,Hadoop正以燎原之勢蔓延,不僅席卷了硅谷,也燃燒到了大洋彼岸的淘寶和百度等,于是很快就成了Apache的頂級項目。 一年后,Doug Cutting加入Cloudera,職位是首席架構師,而作為Hadoop的創始人,他也很快被選為Apache基金會主席。 天時、地利、人和,獨角獸的羽翼鼓漲滿滿,只等風來。 2009年,Cloudera拿到了500萬美金的第一筆投資,2011年,拿到了4000萬美金的第二筆,三年之后,它又拿到了高達9億美金的第三筆。 如果那時你搜索Hadoop is,輸入欄會自動補齊 future。 我記得那時我大學快畢業。有次看到班里一個同學正坐在電腦前賤兮兮的笑,我問他在干啥,他說在改簡歷,我更加好奇便湊了過去,只見他正把一段網上復制的內容貼到“技能“那一欄里去。我不解,他咔咔使勁按了幾下Control+S后嘻嘻道,現在流行云計算,只要描述里出現Hadoop,肯定能過簡歷關。 而且經過實踐,這是真的。Hadoop受歡迎的夸張程度,可見一斑。 另外,估計那會大家都分不清什么是云計算哪個是大數據,不僅我分不清,你看阿里云早期的飛天系統,其實也是一個大數據處理工具,而且可能Cloudera也分不清,不然怎么他一個搞Hadoop的公司,起名叫Cloudera呢? 這邊Hadoop野蠻生長,那邊Cloudera合縱連橫,先是和Oracle達成戰略合作,接著戴爾、Intel、埃森哲、德勤、MasterCard、SAP、TeraData、微軟等也紛紛入局。 所有人都關注著它,生怕錯過什么。 2013年的時候,Mike Olson信心十足的寫下了《The Cloudera Model》一文,表示Cloudera已經找到了Hadoop上成功的商業模式。 那時的Cloudera,可以說是大數據領域最耀眼的星。2015年華爾街日報做了一個獨角獸排名,它是唯一上榜的大數據公司,排名21,比大眾點評還高。 2017年,Cloudera成功上市。 02 被遺忘的 隨著時間發展,Hadoop的概念逐漸泛化。一開始只有HDFS和Mapreduce,然后是一個以HDFS和YARN為基礎的平臺,再之后是一個包含Spark、Hive、Hbase等幾十個項目和子項目的生態,最后,甚至又帶上了以Hadoop為基礎的商業公司,如Cloudera、Hortonworks、MapR等。 這種泛化有個壞處,那就是一旦出現負面新聞,大家往往分不清該怪誰。 比如作為一種技術,Hadoop肯定有其時效性。就像Mapreduce,雖然計算能力強大,但一切都是先Map再Reduce的抽象程度實在太粗魯,以至于理念上很快就被Spark、Flink等這種更先進的技術打敗了。與之相似的,還有HDFS和YARN,從技術上說,前者不如云存儲方便,后者不如K8S靈活,都有被取代的風險。 于是有人便開始宣稱Hadoop已死,然后又說,因為Hadoop已死,Cloudera也不行了。典型的用狹義概念做總結,用廣義概念做推導,就像偶爾看到汽車超過了一輛綠皮車,就立馬得出鐵路運輸已死,公路運輸是未來一樣。 然而這種暴力論斷卻非常有市場。 尤其是2019年,這年Hadoop三個主要的獨立供應商過的都不大好。MapR裁員,苦尋幾個月金主后賣給了HPE。Cloudera合并了Hortonworks,合并后Q1財報略不及預期,然后股價暴跌,CEO離職。往日的Hadoop三巨頭,似乎已是英雄末路。 這時不少人紛紛站了出來,用Mapreduce的問題論斷Cloudera,表示它將不出所料的要玩完。 如果這時你搜索Hadoop is,輸入欄會自動補齊 dead。 于是一個魔幻的現象出現了,一邊是Hadoop已死,獨立供應商要完,一邊各大云廠商卻在拿Hadoop瘋狂賺錢。據分析師測算,2018年單AWS的EMR就產生了2.5億美金的營收,而該產品介紹就是“Hosted Hadoop framework“。而這并不是孤例,除AWS的EMR外,谷歌云有Dataproc,Azure有HDInsight,阿里云有E-MapReduce,云計算四巨頭,全都把托管Hadoop放到了自己大數據產品的首頁,這顯然不是已死的技術該享受的待遇。 Cloudera的心情,大概就像開頭說的種一年菜最后都被鳥收割了一樣。 它當然解釋過,但沒什么效果。另外其實它很早就開始淡化自己是Hadoop供應商的概念了,比如和O'Reilly合辦的Strata大會,以前叫Strata+Hadoop,2017年之后便把Hadoop字眼拿掉,改叫了Strata Data Conference。 只不過這一切幾乎沒有人聽,就像自己已經被大家遺忘掉一樣。 當然,Cloudera無論如何肯定面臨著一些問題,而且遠比技術問題復雜。 在合并之前,Cloudera和Hortonworks有各自不同的產品線,有各自不同的思路,Cloudera主打開源引擎加商業周邊,Hortonworks主打全開源。所以合并后的第一個問題便是產品線怎么整合,原有客戶怎么遷移。它Q1的財報里提到不少客戶推遲了續費,主要就是這個原因,大家都在等。 但這個問題最多只算近憂,Cloudera真正的遠慮,則是前面提到的公共云廠商。 云在吞噬一切,包括大數據,它們不止有托管的Hadoop,還有自研的替代產品。所以邏輯會變成這樣,它們會用托管Hadoop鯨吞開源市場,然后用自研替代品蠶食Hadoop。比如AWS里的Redshift,從場景上基本可以看成是Hadoop+Hive的替代方案,但2018年營收約4億美金,遠超Cloudera。而且這個邏輯對所有開源廠商都成立,幾乎成了開源軟件的公地悲劇。2018年,在怒斥云廠商為吸血鬼而收效甚微之后,Redis和Mongo兩家公司直接修改了開源協議,不再允許云廠商提供托管服務。 不過Hadoop用的是Apache協議,修改起來比較困難。但針對近憂遠慮,Cloudera也給出了自己的答案。 那就是CDP。 03 王者歸來 CDP,全稱Cloudera Data Platform,是Cloudera和Hortonworks合并后的統一產品線,做了諸多技術升級,更重要的是其部署形態發生了根本性改變——CDP是基于云的,而且是混合云。 有人戲稱,Cloudera終于迎來了Cloud Era。 并且,Cloudera還宣布2022年后停止對原來兩條老產品線的支持,全統一到CDP上。很顯然,這種大刀闊斧的革新,表明Cloudera孤注一擲想借CDP王者歸來。它說CDP是一種新的數據方法,是世界上第一個企業數據云產品,對應的市場規模高達260億美金,并將在三年后翻倍。 能行嗎? 我們一層一層來看。 技術上,首先被大家詬病已久的Mapreduce在Cloudera的產品里早有了很多替代品,比如Spark和Flink;其次,CDP整合了云存儲,這意味著HDFS的爭議也能得到解決;最后,CDP在調度上對接了K8S,先不說可能性很小,哪怕最后K8S完全替換了YARN,CDP也能做到幾乎不受影響。 所以技術層面,按照Cloudera CPO的說法,這叫“Hadoop已死,Hadoop萬歲“。Hadoop里幾十個項目,是一個生態,甚至一種哲學,早就超越了十幾年前Mapreduce的范疇,正波浪式的向前蓬勃發展。 商業上,Cloudera一方面在2019年7月宣布所有代碼全部開源,向紅帽的商業模式靠攏。另一方面又在部署形態上做了大幅調整,改成了混合云。 這又可以分兩層來說。 先說第一層,為什么要學習紅帽。 實際上業界一直有一種說法,那就是開源軟件的商業公司里,真正稱得上成功的只有一家,那就是紅帽。紅帽自Linux起家,營收一度高達30多億美金,而且長期盈利,直到2019年以340億美金的天價賣給了IBM。 所以Cloudera學習紅帽的商業模式很容易理解,而且紅帽商業模式里的三個要點,Cloudera也基本都能滿足。 • 深度參與開源社區——Cloudera有一百多位Apache committer,在大數據方面的技術實力無可爭議。 • 代碼全部開源,社區版激進,企業版穩定——全部開源是Cloudera發表的《我們對開源的承諾》一文的主要內容。 • 靠企業版訂閱產生營收,并提供咨詢、支持等服務——CDP,也包括CDH和HDP。 紅帽基于Linux,Linux和Hadoop都是基礎軟件。雖然層次不同,但按照紅帽CEO的說法,他們的商業模式比較適合于“復雜、流行、社區驅動的基礎軟件上“。而大家對Hadoop最大的指責就是太復雜,所以,沒準這種復雜性恰好有其商業價值,畢竟太簡單的也沒必要找個商業公司來兜底。 然而,學習紅帽是否就夠了呢? 紅帽成立于1993年,那會可沒有云計算的威脅。 這就說到了商業上的第二層,也就是CDP所指的混合云。 云在吞噬一切,只不過這種吞噬是從互聯網創業的增量市場開始的,但隨著網絡應用的逐漸飽和,這部分市場越來越小,于是云巨頭不得不把眼光放到傳統IT的存量市場中去。但這些企業跟要么增長要么死亡的互聯網創業公司不同,他們更關心穩定性、更關心數據安全,他們有自己的機房,拒絕被云廠商鎖定。 于是混合云應運而生。 所謂混合云,就是搭建在自建機房和不同云廠商資源之上的云平臺,這種情況下,不管是自建機房還是云廠商,提供的僅僅是底層計算資源,可以根據使用者的意愿隨便切換,就像水和電一樣,即插即用。 嗯,至少理論上是這樣。 但實際上混合云市場還處在混戰之中,參戰者至少有三類:一類是公共云廠商,如AWS的Outposts、Azure的Azure Stack和谷歌的Anthos等,他們的混合云往往為了線下資源,終點在云,不在混合;另一類是獨立混合云供應商,如紅帽的Openshift,他們試圖在各大公共云廠商基礎上搭建一個通用混合云平臺,終點在混合,不在云;還有一類,就是各開源應用廠商自己搭建的混合云,如Confluent的Confluent Cloud、Cloudera的CDP、Elastic的Elasticsearch Service等,他們的目標也是混合,但更純粹,就是要反過來屏蔽云廠商提供的特定開源托管產品。 現在討論混合云的最終格局顯得有點太不自量力,我們不妨把問題稍微縮小一點,那就是在這種混合云的狀態下,Cloudera的混合“企業數據云“,是否能做成? 先說市場,關于市場分析師有諸多測算,少的也有幾百億,但我們不妨說的簡單點——只要大家還要做大數據,Hadoop就一直有市場。實際上我至今都沒發現有誰在做大數據而不用Hadoop的。說Hadoop有問題,大家都承認,但說他要完,這可有點早。可見范圍之內,它還看不到有威脅的整體競爭對手。 既然市場成立,那就看Cloudera的競爭對手情況了。 在MapR被收購并且Cloudera合并了Hortonworks之后,應該沒必要再討論獨立供應商里誰最強的問題了,因為答案是顯然的。 至于像Openshift這樣的獨立混合云,很像云計算版的聚合平臺,可能長期存在,但我不認為能做大,主要原因還是他們無法通過網絡效應增強自己的競爭力,因為可選的供應商太少。而且,他們瞄準的是PaaS這層,即通過K8S屏蔽IaaS,所謀甚大,志不在Hadoop。 所以Cloudera的競爭對手只有公共云廠商。 不過這并不好對比,從技術先進性上來說,Cloudera顯然有優勢,如果客戶對產品有更高要求,那選CDP的可能性要大一些,但從產品模式和市場策略來說,云廠商以IaaS高頻打低頻,在搞定了客戶的基礎資源之后,再給客戶推一個大數據平臺,也算順理成章。 于是似乎只能草草得出一個要看情況的結論。 但我們不妨跳出來再看一下。 毛爺爺曾寫過一篇文章《中國的紅色政權為什么能夠存在?》,里邊這樣說道:“我們只須知道中國白色政權的分裂和戰爭是繼續不斷的,則紅色政權的發生、存在并且日益發展,便是無疑的了。“ 那時中國處于國民黨的統治之下,并且共產黨剛剛遭受了重大打擊,很多人開始產生悲觀情緒。但毛爺爺指出,國民黨的統治貌合神離,蔣桂馮閻四大軍閥的背后是不同的帝國主義訴求,他們之間的斗爭是不可調和的。所以在他們的斗爭之間,紅色政權便能產生和發展。 我發現這段精彩論述,完全可以套用在CDP要做的混合云身上。 • 公共云廠商之間互相斗爭,只要世界上不止有一個云廠商,那被鎖定的擔憂就一直存在,混合云的需求也就一直存在。又因為這種擔憂是針對云廠商的,所以云廠商提供的混合云天生說服力不足。 • CDP的數據混合云是一種“地方經濟“,可以脫離統一的“大資本主義經濟“而獨立存在。即限定到大數據領域,客戶可以只用CDP而不必依賴特定云廠商的某些特定功能。 • CDP的混合云將會先誕生于經過“民主革命“訓練的地方。也就是說,那些曾經習慣使用Cloudera產品的用戶,將會率先遷移到CDP的混合云上來,而Cloudera長期以來的客戶都集中在財富2000里,大多是傳統客戶,正是云計算10%滲透率以外的地方。是的,云計算高歌猛進了這么多年,滲透率依然只有10%。 • CDP這種混合云的誕生和長期發展,需要一支相當力量的“正式武裝“。在開源混合云的場景下,這支“正式武裝“可以理解為商業公司,言下之意是純社區建立的混合云無法長期存在。所幸,目前開源應用混合云都是由商業公司建立的,不管是Confluent、Elastic,還是Cloudera,均不例外。而且,Cloudera這支武裝相當有力量,100多名Apache Committer,3000多名員工,看似和云巨頭動輒幾萬人的規模差距很大,但限定到大數據領域,恐怕很少有公司能達到這個規模和質量。 所以,CDP這種企業數據混合云的長期存在和發展,“便是無疑的了“。 但要問在這種情況下Cloudera是否真的能王者歸來,我無法下斷言。 至于原因,不妨引用一下著名史學家史華茲的觀點:否認客觀環境先驗的重要性是絕對愚蠢的行為,但我的確反對那種主張“形勢“自動引起結果的萬物有靈論,任務完成與否,不僅取決于所用的方法和客觀環境,也取決于承擔任務的那些人的思想、意圖和抱負。 所以我能做的,只有拭目以待。 |