大模型技術的發展和應用,預示著更加智能化、個性化未來的到來。在7月4日至7日召開的2024世界人工智能大會上,來自來自華南理工大學、上海交通大學、清華大學、復旦大學、上海人工智能實驗室、合合信息等高校、研究機構及企業的專家代表就大模型技術在圖像領域的發展、應用進行了深入研討。其中,“百模大戰”現象背后的中國大模型發展前景與堵點成為各界關注的焦點。 根據人工智能研究人員小組Epoch研究估計,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”。 如何幫助大模型在信息的海洋中快速找準航向,在數據的荒漠中找到高質量的“水源”?合合信息在本次大會上展示了大模型“加速器”解決方案。 如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。對于中國的大模型企業而言,語料短缺問題很嚴峻。而高質量語料數據往往存在于書籍、論文、研報、企業文檔等文檔之中。 以法律專業為例,高質量語料數據往往存在于涉及復雜法律案例與細致法律條文的文檔中。以“離婚案件”為例,經典判決書詳細記錄了離婚雙方的訴求、證據及法院的裁決理由,包含豐富的法律邏輯與情感分析素材;專注于離婚法、家庭法領域的學術論文,深入探討離婚制度的歷史演變、司法實踐中的爭議點及解決策略等;法院等權威機構發布的關于離婚案件的司法解釋、指導意見等語言準確、邏輯嚴密的文件,則是法律高質量語料的重要組成部分。這些資料往往具有復雜的面結構,制約了大模型的訓練語料處理及大模型文檔問答的應用能力。 在大模型訓練的上游階段,合合信息“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解析障礙,從源頭為模型訓練與應用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還加載了行業領先的acge文本向量化模型,助力大模型解決“已讀亂回”的“幻覺”問題,讓大模型在正確的航線上行駛得更遠。 合合信息的文檔解析引擎具備強大的“動能”,最快1.5秒可解析百頁長文檔中的文本、表格、圖像等非結構化數據,也是當前市面上同類文檔解析引擎中處理速度最快的產品之一;同時,引擎還具備優秀的文檔“理解力”,可智能還原文檔閱讀順序,加速了模型在預訓練、開發、使用落地等多方面的流程。 合合信息大模型“加速器”還打通了針對圖表類素材的識別、內容理解的障礙,能夠實現對圖表內容的深度“洞察”,完成對研報、論文等文檔中的柱狀圖、折線圖、餅圖、雷達圖等十余種常見圖表進行“還原”,巧妙轉化大模型能夠理解的markdown格式,使數據和圖表的價值潛能充分釋放。 值得一提的是,合合信息大模型“加速器”具備高準確性和穩定性,大幅提升了模型的理解力,并通過其強大的多語言識別、多類型支持能力,為多個行業提供了高效、準確、實用的文檔解析服務。 合合信息智能創新事業部總經理唐琪提到,目前,大模型“加速器”已被多家大模型廠商應用于金融、醫學、財經、媒體等多領域的文檔的解析中,助力大模型更順利地接軌“專業課”。未來,大模型加速器將陪伴更多行業級知識庫的建立,讓大模型的服務潤澤社會各個角落,實現“智能觸手可及”。 |