技術報告：突破通用大模型瓶頸，智慧芽專利大模型凸顯專業優勢

發布時間：2024-5-8 15:42 發布者：焦點訊

4月28日，科技創新與知識產權信息服務商智慧芽旗下的大模型開發團隊在arXiv發表技術報告PatentGPT: A Large Language Model for Intellectual Property（智慧芽專利大模型：一個應用于知識產權領域的大語言模型），介紹“智慧芽專利大模型”的訓練策略，及其在知識產權場景表現超越GPT-4等方面的應用優勢。此前，智慧芽已發布“垂直領域大模型”并成功訓練“專利大模型”和“生物醫藥大模型”。

arXiv是國際知名的學術平臺，于1991年創立，目前在物理、數學、計算機科學等八個主題領域，收錄了超過200萬篇學術文章，由康奈爾大學的arXiv領導團隊及工作人員維護運營。

在該篇技術報告中，智慧芽提出了一種用于訓練面向知識產權領域的大語言模型，滿足知產領域的獨特需求。該模型在2019年中國專利代理師資格考試中成績超過GPT-4，達到了人類專家水平。同時，鑒于其采用SMoE架構，因而在長文本任務上展現了更高的資源效率。此外，智慧芽提出了一個更接近大模型在知識產權領域用例的基準“PatentBench”，為知產領域大模型的全面評估提供參考。

亮點一：專業能力超越GPT-4

根據技術報告，智慧芽提出了知識產權領域大模型的標準訓練程序，包括數據預處理、預訓練、對齊和評估，并基于此訓練了“智慧芽專利大模型”。

為了證明“智慧芽專利大模型”在知識產權領域的專業能力，團隊使用2019年中國專利代理師資格考試對各項大模型進行測試。實驗結果表明，商業通用大模型未能通過考試及格線，而“智慧芽專利大模型”取得65分，達到知識產權專家的水平。上述結果揭示了通用大模型在知識產權領域專業能力的不足，并再次強調了預訓練領域特定大模型的有效性和必要性。

上圖呈現了智慧芽專利大模型考試成績高于商業通用大模型（圖源arXiv）

需要強調的是，上述考試結果不僅僅是通過將知識產權知識整合到模型中實現的，還通過一系列數據增強技術提高了模型消除選項順序干擾的能力，這種能力可以用PPA來表示。結果顯示，“智慧芽專利大模型”的PPA顯著優于GPT-4-1106-preview。

在技術報告中，智慧芽還使用了MoZIP，一項專門為知識產權行業大模型設計的開源測試基準，包含三項挑戰任務：IP基礎知識多項選擇測驗（IPQuiz）、IP基礎知識問答（IPQA）和專利內容匹配（PatentMatch）。

其中，“智慧芽專利大模型”在專利內容匹配任務上的表現均超過了GPT-3.5-turbo，這表明智慧芽大模型在把握各種專利之間的關系方面更為優秀，該能力有助于協助專利審查員識別潛在的侵權內容。可見，智慧芽的預訓練數據和策略有效提高了大模型在知識產權領域的性能。

上圖呈現了智慧芽專利大模型在專利內容匹配任務上的表現優異（表源arXiv）

亮點二：推理效率更勝一籌

除了性能外，模型的響應延遲和運營成本對于其商業可行性至關重要。智慧芽大模型開發團隊對所有“智慧芽專利大模型”進行了4位量化，并使用了Text-Generation-Inference(TGI)-1.4來評估它們在輸出第一個標記時的資源消耗。所有實驗都在配備NVIDIA A100 80GB GPU的服務器上進行。

下圖展示了輸入序列長度與推理階段資源消耗之間的關系。結果表明，所有模型的GPU內存使用量與它們的參數數量和輸入序列長度都呈正相關。其中，“智慧芽專利大模型-1.0-MoE”在輸入序列長度增加時GPU內存使用量的增加最小，表明其在涉及長上下文場景的應用中更具資源效率。

上圖呈現了智慧芽專利大模型-1.0-MoE在長上下文場景應用中更具資源效率（圖源arXiv）

實驗結果還揭示了在模型性能水平幾乎相等的條件下，“智慧芽專利大模型-1.0-MoE”在推理效率方面更勝一籌。知識產權領域大模型尤為注重長上下文序列的計算資源管理。該模型的設計允許處理長上下文并保持高性能水平，而不會對系統資源造成不必要的負擔，提供了一個可能的優越折衷方案。這或許是在資源管理與處理復雜和長數據序列的能力同樣關鍵的環境中部署先進的知識產權導向模型的關鍵一步。這些發現表明，類似“智慧芽專利大模型-1.0-MoE”這樣的SMoE模型在知識產權行業中得以應用的可行性，以及選擇模型架構以開發功能強大、高效和專業使用的解決方案的重要性。

亮點三：建立PatentBench評測基準

目前市面上缺乏系統性評測大模型在知識產權領域專業能力的開源基準，為此智慧芽提出了PatentBench，率先將專利代理和審查過程中涉及的任務，如專利規格起草、專利分類以及總結專利的關鍵技術點，納入評估知識產權領域大模型的基準。值得一提的是，智慧芽計劃在2024年第四季度開源PatentBench，為開源社區和行業發展做出貢獻。

PatentBench的主要評估任務包括：專利問答Patent QA、專利撰寫Patent Writing、專利分類Patent Classification、專利摘要Patent Summary、專利推理Patent Reasoning、專利校正Patent Correction、專利翻譯Patent Translation。

具體來看，智慧芽首先使用GPT-4和NLP中廣泛使用的指標評估“智慧芽專利大模型”在PatentBench上的零樣本性能。為了評估模型的總結、撰寫和對話能力，使用GPT-4作為評委，對比不同模型輸出結果的質量。

結果顯示，“智慧芽專利大模型”在起草和知識產權領域的開放式問答方面顯著優于ChatGPT-3.5-turbo，表明“智慧芽專利大模型”有潛力作為專利助手，幫助人類起草專利說明書、閱讀專利以及理解專利法律法規。

隨后根據不同的指標評估了分類、審查、翻譯、文本校正和推理能力。“智慧芽專利大模型”在除了推理之外的其他能力上整體優于ChatGPT-3.5-turbo。這些結果證明了智慧芽的預訓練和專利大模型在知識產權領域的先進性。

上圖呈現了智慧芽專利大模型在多項能力上表現優異（圖源arXiv）

未來，智慧芽大模型的開發將專注于增強長上下文支持，以滿足更多樣化的知識產權工作場景。此外，還將積累英文預訓練語料庫和SFT數據，以進一步提高智慧芽垂直領域大模型在英文方面的表現。

本文地址：http://m.qingdxww.cn/thread-856603-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。

網友評論

貿澤電子有獎問答視頻，答對領10元微信紅包

廠商推薦

快速回復 返回頂部 返回列表

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

技術報告：突破通用大模型瓶頸，智慧芽專利大模型凸顯專業優勢

網友評論

廠商推薦