近年來(lái),在“走出去”政策支持下,企業(yè)出海持續(xù)升溫。根據(jù)中國(guó)上市公司協(xié)會(huì)數(shù)據(jù),2024上半年我國(guó)上市公司實(shí)現(xiàn)海外業(yè)務(wù)收入3.83萬(wàn)億元,同比增長(zhǎng)12.84%。隨著出海規(guī)模不斷擴(kuò)大,企業(yè)跨國(guó)間的交流也變得日益頻繁。為了應(yīng)對(duì)提交出口產(chǎn)品注冊(cè)資料、制作海外項(xiàng)目競(jìng)標(biāo)標(biāo)書(shū)等場(chǎng)景,合合信息智能文檔處理技術(shù)助力企業(yè)解析、翻譯電子文檔,推進(jìn)出海項(xiàng)目進(jìn)程。 中企出海,應(yīng)對(duì)合規(guī)審查是第一關(guān)。企業(yè)需要處理的文檔不僅數(shù)量龐大,語(yǔ)種繁多,格式也不統(tǒng)一,包含多種結(jié)構(gòu)布局,尤其是無(wú)線(xiàn)表、密集表、合并單元格等復(fù)雜數(shù)據(jù),增加了信息提取難度。合合信息文檔解析技術(shù)是智能文檔處理技術(shù)流程中的關(guān)鍵步驟,能夠在還原版面的基礎(chǔ)上,理解、抽取多語(yǔ)種文檔內(nèi)文字、表格、公式、圖片等元素,為企業(yè)出海提升文檔處理效率。 文檔解析巧解醫(yī)療企業(yè)產(chǎn)品注冊(cè)難題 醫(yī)療器械是生物醫(yī)藥行業(yè)出海中的“主力軍”。醫(yī)械產(chǎn)品在上市前,不少海外國(guó)家都會(huì)要求企業(yè)在線(xiàn)填報(bào)醫(yī)療器械注冊(cè)申報(bào)表格,提供企業(yè)介紹、產(chǎn)品規(guī)格、設(shè)計(jì)文件、測(cè)試數(shù)據(jù)和臨床數(shù)據(jù)等信息,單人需要耗費(fèi)數(shù)天進(jìn)行資料的整理和翻譯。 合合信息文檔解析技術(shù)作為“全科優(yōu)秀生”,支持一個(gè)接口解析PDF、Word(doc、docx)、常見(jiàn)圖片(jpg、png、webp、tiff)、HTML 等多種文件格式,可一次性獲取文字、表格、標(biāo)題層級(jí)、公式、手寫(xiě)字符、圖片信息。同時(shí)還能夠做到按照人類(lèi)閱讀的正常順序理解上下文關(guān)系,而非機(jī)械地從上到下讀取內(nèi)容。 以醫(yī)械產(chǎn)品說(shuō)明書(shū)為例,文檔解析技術(shù)會(huì)根據(jù)版面布局合并在跨頁(yè)中被“攔腰斬?cái)唷钡亩温浜捅砀瘢又賲^(qū)分并提取純文本,表格內(nèi)的產(chǎn)品參數(shù)、型號(hào)、化學(xué)符號(hào)、數(shù)學(xué)單位等元素,保證數(shù)據(jù)解析結(jié)構(gòu)的完整性。 圖說(shuō):合合信息文檔解析技術(shù)精準(zhǔn)實(shí)現(xiàn)跨頁(yè)段落合并 在完成文檔解析后,企業(yè)還需將內(nèi)容翻譯成當(dāng)?shù)卣Z(yǔ)言版本用于醫(yī)械產(chǎn)品上市注冊(cè)審批,翻譯前的信息提取精度直接影響了翻譯精度。文檔解析技術(shù)能夠保持段落、表格等原始結(jié)構(gòu),減少翻譯后重排工作,同時(shí)支持批量、高效提取五十多種語(yǔ)言文檔內(nèi)的信息,可精確定位至某頁(yè)某行某個(gè)具體單詞,提升翻譯后的文檔一致性。 AI助力制造業(yè)規(guī)避侵權(quán)風(fēng)險(xiǎn) 制造業(yè)作為出海“老牌”行業(yè),正在向具有高附加值的先進(jìn)制造業(yè)轉(zhuǎn)型,在此過(guò)程中,知識(shí)產(chǎn)權(quán)糾紛也成為了容易觸發(fā)爭(zhēng)議的領(lǐng)域之一。《中國(guó)專(zhuān)利調(diào)查報(bào)告》顯示,2023 年計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)企業(yè)遭遇海外知識(shí)產(chǎn)權(quán)糾紛比例最高,影響企業(yè)海外發(fā)展前景。 對(duì)此,企業(yè)需要做好侵權(quán)風(fēng)險(xiǎn)分析,打造企業(yè)專(zhuān)利信息庫(kù),定期檢索與本產(chǎn)品及技術(shù)密切相關(guān)的專(zhuān)利說(shuō)明書(shū)、科研論文、國(guó)際標(biāo)準(zhǔn)等內(nèi)容。在專(zhuān)利庫(kù)搭建過(guò)程中,除了文本、表格和流程圖外,數(shù)學(xué)公式也是材料中常見(jiàn)的元素,以其復(fù)雜的結(jié)構(gòu)成為文檔解析過(guò)程中的“攔路虎”。 過(guò)去工作人員需要經(jīng)過(guò)數(shù)道繁雜程序?qū)竭M(jìn)行查找、辨認(rèn)和手工錄入,耗費(fèi)時(shí)間長(zhǎng)。文檔解析技術(shù)可單獨(dú)對(duì)公式類(lèi)內(nèi)容進(jìn)行批量提取,支持識(shí)別Latex公式并導(dǎo)出為MathML Code等多種格式。為了進(jìn)一步提高數(shù)據(jù)精度,用戶(hù)可直接在界面上修改、編輯公式,方便后續(xù)數(shù)據(jù)應(yīng)用。 圖說(shuō):合合信息文檔解析技術(shù)批量識(shí)別公式 出海是中企尋求發(fā)展之道的重要路徑,然而藍(lán)海之下暗流涌動(dòng),企業(yè)出海仍面臨著市場(chǎng)、文化、法律等多方面的難題。合合信息會(huì)繼續(xù)挖掘智能文檔處理技術(shù)在出海場(chǎng)景中的深度應(yīng)用,幫助更多企業(yè)“揚(yáng)帆遠(yuǎn)航”。 |