近年來,在“走出去”政策支持下,企業出海持續升溫。根據中國上市公司協會數據,2024上半年我國上市公司實現海外業務收入3.83萬億元,同比增長12.84%。隨著出海規模不斷擴大,企業跨國間的交流也變得日益頻繁。為了應對提交出口產品注冊資料、制作海外項目競標標書等場景,合合信息智能文檔處理技術助力企業解析、翻譯電子文檔,推進出海項目進程。 中企出海,應對合規審查是第一關。企業需要處理的文檔不僅數量龐大,語種繁多,格式也不統一,包含多種結構布局,尤其是無線表、密集表、合并單元格等復雜數據,增加了信息提取難度。合合信息文檔解析技術是智能文檔處理技術流程中的關鍵步驟,能夠在還原版面的基礎上,理解、抽取多語種文檔內文字、表格、公式、圖片等元素,為企業出海提升文檔處理效率。 文檔解析巧解醫療企業產品注冊難題 醫療器械是生物醫藥行業出海中的“主力軍”。醫械產品在上市前,不少海外國家都會要求企業在線填報醫療器械注冊申報表格,提供企業介紹、產品規格、設計文件、測試數據和臨床數據等信息,單人需要耗費數天進行資料的整理和翻譯。 合合信息文檔解析技術作為“全科優秀生”,支持一個接口解析PDF、Word(doc、docx)、常見圖片(jpg、png、webp、tiff)、HTML 等多種文件格式,可一次性獲取文字、表格、標題層級、公式、手寫字符、圖片信息。同時還能夠做到按照人類閱讀的正常順序理解上下文關系,而非機械地從上到下讀取內容。 以醫械產品說明書為例,文檔解析技術會根據版面布局合并在跨頁中被“攔腰斬斷”的段落和表格,接著再區分并提取純文本,表格內的產品參數、型號、化學符號、數學單位等元素,保證數據解析結構的完整性。 圖說:合合信息文檔解析技術精準實現跨頁段落合并 在完成文檔解析后,企業還需將內容翻譯成當地語言版本用于醫械產品上市注冊審批,翻譯前的信息提取精度直接影響了翻譯精度。文檔解析技術能夠保持段落、表格等原始結構,減少翻譯后重排工作,同時支持批量、高效提取五十多種語言文檔內的信息,可精確定位至某頁某行某個具體單詞,提升翻譯后的文檔一致性。 AI助力制造業規避侵權風險 制造業作為出海“老牌”行業,正在向具有高附加值的先進制造業轉型,在此過程中,知識產權糾紛也成為了容易觸發爭議的領域之一。《中國專利調查報告》顯示,2023 年計算機、通信和其他電子設備制造業企業遭遇海外知識產權糾紛比例最高,影響企業海外發展前景。 對此,企業需要做好侵權風險分析,打造企業專利信息庫,定期檢索與本產品及技術密切相關的專利說明書、科研論文、國際標準等內容。在專利庫搭建過程中,除了文本、表格和流程圖外,數學公式也是材料中常見的元素,以其復雜的結構成為文檔解析過程中的“攔路虎”。 過去工作人員需要經過數道繁雜程序對公式進行查找、辨認和手工錄入,耗費時間長。文檔解析技術可單獨對公式類內容進行批量提取,支持識別Latex公式并導出為MathML Code等多種格式。為了進一步提高數據精度,用戶可直接在界面上修改、編輯公式,方便后續數據應用。 圖說:合合信息文檔解析技術批量識別公式 出海是中企尋求發展之道的重要路徑,然而藍海之下暗流涌動,企業出海仍面臨著市場、文化、法律等多方面的難題。合合信息會繼續挖掘智能文檔處理技術在出海場景中的深度應用,幫助更多企業“揚帆遠航”。 |