隨著 5G 時(shí)代的到來(lái),大數(shù)據(jù)分析和應(yīng)用得到了各個(gè)行業(yè)的廣泛關(guān)注,各種新的應(yīng)用也時(shí)刻產(chǎn)生巨量的非結(jié)構(gòu)化數(shù)據(jù),如何工具化、平臺(tái)化、規(guī)模化地使用這些非結(jié)構(gòu)化數(shù)據(jù),成為企業(yè)關(guān)注的焦點(diǎn)。 9 月 24-25 日,剛?cè)谫Y 6000 萬(wàn)美元的向量數(shù)據(jù)庫(kù)公司 Zilliz 出品的 2022 首屆非結(jié)構(gòu)化數(shù)據(jù)峰會(huì)成功舉行,本屆峰會(huì)以“矩陣革命——向量連接世界”為主題,Zilliz 核心產(chǎn)品和研發(fā)團(tuán)隊(duì)攜手來(lái)自金融、人工智能、互聯(lián)網(wǎng)等多領(lǐng)域的專家,分享了以向量數(shù)據(jù)庫(kù)為代表的非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)發(fā)展與應(yīng)用實(shí)踐。 Zilliz Cloud:非向量數(shù)據(jù)庫(kù)產(chǎn)品家族新成員 作為向量數(shù)據(jù)庫(kù)包括非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的先行者,Zilliz 一直在探索如何管理、使用、快速價(jià)值化非結(jié)構(gòu)化數(shù)據(jù),從而賦能企業(yè)提效增益。 Zilliz 創(chuàng)始人兼首席執(zhí)行官星爵表示,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占數(shù)據(jù)總量的 80%以上,未來(lái)幾年增速將會(huì)超過(guò)結(jié)構(gòu)化數(shù)據(jù)。但與此同時(shí),非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值目前還遠(yuǎn)未充分挖掘,Zilliz 會(huì)繼續(xù)深耕在向量數(shù)據(jù)處理領(lǐng)域的能力,包括數(shù)據(jù)的可觀測(cè)性、工作流管理、數(shù)據(jù)安全、數(shù)據(jù)隱私、數(shù)據(jù)應(yīng)用等層面。如今,Zilliz 在非結(jié)構(gòu)化數(shù)據(jù)處理的生態(tài)圈,已經(jīng)貢獻(xiàn)了 Milvus 和 Towhee 兩個(gè)開(kāi)源項(xiàng)目,在非結(jié)構(gòu)化數(shù)據(jù)處理領(lǐng)域不斷提供創(chuàng)新解決方案。 星爵 Zilliz 創(chuàng)始人兼首席執(zhí)行官 言出必行,Zilliz 隨即以此次峰會(huì)為契機(jī),重磅發(fā)布了全新產(chǎn)品——Zilliz Cloud,為用戶提供了一個(gè)新的云選項(xiàng)。 談及推出 Zilliz Cloud 的初衷,Zilliz 合伙人和技術(shù)總監(jiān)欒小凡這樣解釋:在非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域,很多工具是散的,用戶只能把各種各樣的開(kāi)源組件拼接起來(lái)使用,處理流程會(huì)比較繁瑣,并且在穩(wěn)定性、易用性方面還會(huì)遇到各種問(wèn)題。 Zilliz Cloud 正是為了解決這些痛點(diǎn)而生,它是基于 Milvus 構(gòu)建的一個(gè)能夠托管的云服務(wù),由最懂得做非結(jié)構(gòu)化處理及向量檢索的團(tuán)隊(duì)——Milvus 原班人馬打造。Zilliz Cloud 具備高可用、成本優(yōu)化、擴(kuò)展性強(qiáng)等特點(diǎn),能夠打通數(shù)據(jù)之間的隔閡,完成數(shù)據(jù)的轉(zhuǎn)換、分析、遷移、可視化等管理動(dòng)作,更重要的是,通過(guò)這一系列操作,非結(jié)構(gòu)化數(shù)據(jù)將被轉(zhuǎn)化成可以檢索的向量數(shù)據(jù),從而為業(yè)務(wù)提供更大的價(jià)值。 Zilliz 產(chǎn)品家族圖 面對(duì)新成員的華麗亮相,作為家族元老的 Milvus 和 Towhee 也不逞多讓。 Milvus 是一個(gè)開(kāi)源的分布式向量數(shù)據(jù)庫(kù),不但集成了業(yè)界成熟的向量相似度搜索技術(shù),更在此基礎(chǔ)上對(duì)高性能計(jì)算框架進(jìn)行了大幅度優(yōu)化。在即將推出的 Milvus 2.2 版本中,增加了磁盤(pán)索引(DiskANN)這一選項(xiàng),相比于傳統(tǒng)的純內(nèi)存索引方案,DiskANN 可以把用戶的本地磁盤(pán)作為存儲(chǔ)索引,犧牲少量的查詢性能,但能換來(lái)成本的大幅降低,用戶可以使用更低成本的具備 SSD 且內(nèi)存更小的機(jī)器進(jìn)行數(shù)據(jù)庫(kù)部署。同時(shí)新版本還將增加數(shù)據(jù)批量導(dǎo)入、RBAC 權(quán)限控制、查詢 Pagination、限流與反壓等功能。 Towhee 是傳統(tǒng) ETL 工具覆蓋能力的補(bǔ)充,相比傳統(tǒng) ETL,非結(jié)構(gòu)化數(shù)據(jù)的 ETL 在業(yè)務(wù)側(cè)的原始數(shù)據(jù)層更大、轉(zhuǎn)換過(guò)程更加面向深層次語(yǔ)義、過(guò)程會(huì)引入大量 AI 能力。通過(guò)使用 Towhee,任何用戶都能夠基于 Python 代碼一鍵構(gòu)建面向生產(chǎn)的高性能非結(jié)構(gòu)化數(shù)據(jù)處理流水線。未來(lái),Towhee 將會(huì)持續(xù)得到優(yōu)化和升級(jí),比如在現(xiàn)有的 pipeline 定義接口上提供一個(gè)類似于 Spark、Flink 的流水線定義接口;同時(shí)將更加深入地集成類似英偉達(dá)這樣的技術(shù)生態(tài),進(jìn)一步提升整個(gè)流水線面向生產(chǎn)的執(zhí)行效率;也會(huì)不斷努力滿足社區(qū)用戶的需求,解決中文模型的缺口。 眼花繚亂的非向量數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景 非結(jié)構(gòu)化數(shù)據(jù)的不斷增長(zhǎng),驅(qū)動(dòng)著基于 AI 的非結(jié)構(gòu)化數(shù)據(jù)分析與檢索技術(shù)的不斷發(fā)展。 據(jù) Zilliz 合伙人和產(chǎn)品總監(jiān)郭人通介紹,在應(yīng)用生態(tài)層面,非結(jié)構(gòu)化數(shù)據(jù)搜索在圖片搜索、視頻搜索、文本語(yǔ)義搜索、跨通道搜索、推薦/問(wèn)答系統(tǒng)、版權(quán)保護(hù)、欺詐檢測(cè)、數(shù)據(jù)查重、網(wǎng)絡(luò)安全、藥物發(fā)掘、異常檢測(cè)等場(chǎng)景有著良好的應(yīng)用前景;在行業(yè)生態(tài)層面,當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)生態(tài)的基礎(chǔ)軟件和工具遠(yuǎn)遠(yuǎn)少于結(jié)構(gòu)化數(shù)據(jù)生態(tài),未來(lái)有著非常廣闊的增長(zhǎng)空間。 技術(shù)的應(yīng)用離不開(kāi)不同行業(yè)的實(shí)踐,多位嘉賓從各自業(yè)務(wù)出發(fā),通過(guò)實(shí)際問(wèn)題剖析,闡述了如何有效地提取非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義信息,如何實(shí)現(xiàn)大規(guī)模、高精度、高吞吐的非結(jié)構(gòu)化數(shù)據(jù)分析與檢索。
金融支付、深度學(xué)習(xí)、視頻直播、社交……Milvus 在越來(lái)越多的領(lǐng)域?qū)嵺`落地和發(fā)揮價(jià)值,這讓我們近距離感知到了非結(jié)構(gòu)化數(shù)據(jù)和向量檢索的極大發(fā)展空間,也對(duì)于打破數(shù)據(jù)孤島,實(shí)現(xiàn)優(yōu)質(zhì)數(shù)據(jù)互聯(lián)互通更加有信心。 “單絲不成線,孤木不成林”,縱深挖掘非結(jié)構(gòu)化數(shù)據(jù)潛能意義重大。2022 首屆非結(jié)構(gòu)化數(shù)據(jù)峰會(huì),給我們展示了一張非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)進(jìn)展與實(shí)踐成果的全景圖。面向未來(lái),Zilliz 也發(fā)出倡議,希望借助本次峰會(huì)達(dá)成共識(shí),經(jīng)驗(yàn)共享,創(chuàng)新共創(chuàng),與更多的開(kāi)發(fā)者、生態(tài)伙伴、創(chuàng)業(yè)公司一起探索,推動(dòng)向量數(shù)據(jù)庫(kù)在各行各業(yè)的應(yīng)用,共建非結(jié)構(gòu)化數(shù)據(jù)的美好未來(lái)。 |