亚洲性猛交xxxx,国产精品久久久久久人妻精品动漫,国产在线观看免费人成视频

首頁(yè) 動(dòng)態(tài)資訊行業(yè)資訊

淺談智能文檔處理技術(shù)與應(yīng)用

來(lái)源：易道博識(shí) 發(fā)布時(shí)間：2023-04-26

智能文檔處理介紹

智能文檔處理（IDP）是利用人工智能技術(shù)，自動(dòng)從復(fù)雜的非結(jié)構(gòu)化和半結(jié)構(gòu)化文檔中抽取關(guān)鍵數(shù)據(jù)，并將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。IDP又稱(chēng)為認(rèn)知數(shù)據(jù)處理（Cognitive Data Processing）或智能數(shù)據(jù)捕獲（Intelligent Data Capturing）技術(shù)。

眾所周知，商業(yè)數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型的核心。然而，現(xiàn)實(shí)中80%的商業(yè)數(shù)據(jù)都是非結(jié)構(gòu)化格式，比如郵件、圖片和各種企業(yè)文檔，其中非結(jié)構(gòu)化文檔占據(jù)了絕大多數(shù)。據(jù)統(tǒng)計(jì)，到2025年，全球企業(yè)數(shù)據(jù)總量將達(dá)到175ZB。借助于IDP技術(shù)，企業(yè)能夠?qū)崿F(xiàn)文檔自動(dòng)化處理、文檔語(yǔ)義理解、智能審核和數(shù)據(jù)智能分析等方面的功能，提升企業(yè)用戶文檔處理的效率和質(zhì)量，為企業(yè)降本增效。

智能文檔處理難點(diǎn)

從文檔的結(jié)構(gòu)特點(diǎn)上，我們可以將現(xiàn)實(shí)世界的文檔劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種類(lèi)型。對(duì)應(yīng)到版式特征上，分別是固定版式、多版式和開(kāi)放版式三種類(lèi)型。

結(jié)構(gòu)化文檔具有版式固定的特點(diǎn)，同一類(lèi)型不同樣本之間沒(méi)有差異，如固定版式的信息采集表、申請(qǐng)文件等。半結(jié)構(gòu)化文檔版式相對(duì)固定，或稱(chēng)為多版式文檔，同一類(lèi)型不同樣本之間關(guān)鍵內(nèi)容相同，但是往往內(nèi)容出現(xiàn)的位置卻不同，如不同供應(yīng)商采購(gòu)的送貨單，每個(gè)供應(yīng)商都不同，但是其關(guān)鍵內(nèi)容都包含訂單號(hào)、商品信息等。

非結(jié)構(gòu)化文檔又稱(chēng)為開(kāi)放版式文檔，通常沒(méi)有顯著的版式特征，幾乎是純文本表達(dá)，雖然表達(dá)的內(nèi)容相同，但是表達(dá)方式卻差異很大。常見(jiàn)的如合同、簡(jiǎn)歷、招標(biāo)文件等。

對(duì)于結(jié)構(gòu)化和半結(jié)構(gòu)化文檔，由于版式相對(duì)固定，當(dāng)前行業(yè)內(nèi)普遍的做法是通過(guò)模板或深度學(xué)習(xí)模型的方法，完成分類(lèi)和信息抽取等自動(dòng)化處理，已經(jīng)能夠解決大多數(shù)應(yīng)用場(chǎng)景的問(wèn)題。但是，開(kāi)放版式文檔，由于其天然的諸多難點(diǎn)，給智能文檔處理帶來(lái)了很大的困難。如下表，是我們歸納的開(kāi)放版式文檔處理的主要難點(diǎn)。

表1 開(kāi)放版式文檔特點(diǎn)

智能文檔處理核心技術(shù)

如表1，相比于純文本或固定和多版式文檔，開(kāi)放版式文檔處理具有諸多難點(diǎn)。因此，智能文檔處理過(guò)程必須綜合應(yīng)用計(jì)算機(jī)視覺(jué)（CV）、光學(xué)字符處理（OCR）、文檔解析、自然語(yǔ)言處理（NLP）和文檔信息抽取等關(guān)鍵技術(shù)，才能更好地實(shí)現(xiàn)自動(dòng)化和智能化處理。

計(jì)算機(jī)視覺(jué)（CV）技術(shù)

CV技術(shù)主要是對(duì)于文檔圖像進(jìn)行各種圖像處理，常見(jiàn)如圖像去噪聲、去干擾、圖像增強(qiáng)、圖像壓縮、圖像分割等。其處理目的主要是為后續(xù)OCR環(huán)節(jié)提供高質(zhì)量的圖像輸入，以提升OCR的性能。同時(shí)，利用圖像檢測(cè)和分割等技術(shù)，可以實(shí)現(xiàn)文檔物理版面解析。

光學(xué)字符處理（OCR）技術(shù)

OCR是將紙質(zhì)文檔、圖片等非數(shù)字化文件中的文字內(nèi)容轉(zhuǎn)換為數(shù)字化格式的技術(shù)。當(dāng)前主流實(shí)現(xiàn)上，借助表格識(shí)別、印章識(shí)別、勾選和二維碼識(shí)別等技術(shù)，在OCR環(huán)節(jié)可以實(shí)現(xiàn)圖像中所有通用對(duì)象（文字、表格、印章、勾選、二維碼、簽名等）的統(tǒng)一識(shí)別和輸出，作為后續(xù)智能化文檔處理環(huán)節(jié)的輸入。

文檔解析技術(shù)

文檔解析是在文檔協(xié)議解析或OCR處理的結(jié)果上，通過(guò)版面分析、表格解析等技術(shù)，實(shí)現(xiàn)文檔物理和邏輯結(jié)構(gòu)的解析，得到文檔內(nèi)容的統(tǒng)一表示。以此作為進(jìn)一步文檔分類(lèi)、信息抽取和文檔比對(duì)等處理的輸入。IDP通常需要能夠支持所有格式的文檔輸入，包括圖片、PDF、Word、OFD等，因此，文檔解析環(huán)節(jié)需要能夠解析以上各種格式的輸入文件，將其轉(zhuǎn)換成統(tǒng)一的表示形式，如JSON文件。

自然語(yǔ)言處理（NLP）

NLP是一種利用計(jì)算機(jī)技術(shù)對(duì)自然語(yǔ)言進(jìn)行分析和處理的技術(shù)，常見(jiàn)的NLP任務(wù)包括分詞、詞性標(biāo)注、句法分析、語(yǔ)義分析、文本分類(lèi)、信息抽取、文檔摘要、情感分析等。IDP中主要使用的NLP技術(shù)包括文本分類(lèi)、文本信息抽取、語(yǔ)義理解等。通常的做法是將OCR輸出或文檔協(xié)議解析后的所有文本塊進(jìn)行拼接，得到文本序列，再通過(guò)文本分類(lèi)、信息抽取等技術(shù)，實(shí)現(xiàn)文檔的分類(lèi)和信息抽取。另外，通過(guò)NLP技術(shù)，也可以對(duì)文檔進(jìn)行自動(dòng)摘要、情感分析和智能問(wèn)答等處理。

文檔信息抽取

相比于純文本，文檔的最大特點(diǎn)是其富格式特點(diǎn)。因此，文檔中信息抽取必須依賴(lài)于版面位置等視覺(jué)特征，比如從文檔中的圖表或表格中抽取信息，或者從特定版面位置區(qū)域的結(jié)構(gòu)化信息塊中抽取信息。相比于簡(jiǎn)單地從大段文本序列中做信息抽取，文檔信息抽取技術(shù)難度更大。

智能文檔處理流程

如下圖，是智能文檔統(tǒng)一處理流程。

圖1 智能文檔處理流程

主要包含以下環(huán)節(jié)：

文檔預(yù)處理

該步驟主要針對(duì)Word、PDF等文檔協(xié)議進(jìn)行解析處理。

通過(guò)通用OCR識(shí)別模型，對(duì)輸入的文檔圖像上的文字、印章、簽名、表格等通用要素進(jìn)行識(shí)別，得到文本和位置，以及表格結(jié)構(gòu)化數(shù)據(jù)。

版面分析

利用版面分析技術(shù)，定位出文檔圖像上所有的標(biāo)題、段落、表格、圖表、頁(yè)眉、頁(yè)腳等版面信息。再利用標(biāo)題和段落等信息，做文檔邏輯結(jié)構(gòu)分析，得到文檔結(jié)構(gòu)。

信息抽取

基于版面和目錄分析的結(jié)果，結(jié)合文檔協(xié)議解析或OCR的結(jié)果，利用自然語(yǔ)言處理等技術(shù)，進(jìn)行文檔關(guān)鍵信息抽取。

信息校驗(yàn)

利用預(yù)設(shè)的規(guī)則，對(duì)抽取出的信息進(jìn)行校驗(yàn)，包括數(shù)據(jù)格式檢查、預(yù)設(shè)的審閱規(guī)則檢查等。

智能文檔處理應(yīng)用場(chǎng)景

主要的智能文檔處理應(yīng)用場(chǎng)景包括：

分類(lèi)和標(biāo)簽化

通過(guò)智能文檔處理技術(shù)，可以對(duì)大量文檔進(jìn)行分類(lèi)和標(biāo)簽化，從而實(shí)現(xiàn)文檔的快速檢索、內(nèi)容推薦和歸檔處理等功能。

信息抽取

智能文檔處理可以幫助從文檔中抽取關(guān)鍵信息，如關(guān)鍵的短語(yǔ)、實(shí)體、事件等。這些信息在知識(shí)圖譜構(gòu)建、智能搜索、智能比對(duì)、智能問(wèn)答等應(yīng)用場(chǎng)景中具有重要的價(jià)值。

摘要與生成

利用智能文檔處理技術(shù)，可以對(duì)文檔進(jìn)行自動(dòng)摘要，生成簡(jiǎn)潔、精煉的摘要內(nèi)容。此外，還可以根據(jù)用戶輸入的關(guān)鍵詞或短語(yǔ)生成特定主題的文章，以滿足用戶需求。

問(wèn)答與對(duì)話

通過(guò)智能文檔處理技術(shù)，可以構(gòu)建智能問(wèn)答系統(tǒng)，為用戶提供及時(shí)準(zhǔn)確的文檔內(nèi)容信息。

未來(lái)隨著大模型等人工智能技術(shù)的不斷發(fā)展，智能文檔處理將會(huì)在各個(gè)行業(yè)的應(yīng)用場(chǎng)景中不斷普及化。

賽博智能學(xué)習(xí)平臺(tái)智能文檔處理

賽博智能學(xué)習(xí)平臺(tái)定位于一體化機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)，集成了對(duì)于結(jié)構(gòu)化和非結(jié)構(gòu)文檔的智能化處理功能，包括智能文檔分類(lèi)、文檔解析和文檔信息抽取等。能夠支持合同、法律文書(shū)、招投標(biāo)文件等各種開(kāi)放版式長(zhǎng)文檔的智能化處理。基于平臺(tái)自定義模板和自訓(xùn)練模型能力，通過(guò)現(xiàn)場(chǎng)模板定制、模型標(biāo)注訓(xùn)練的方式，能夠形成即時(shí)可用的文檔AI能力。

如下圖，是賽博智能學(xué)習(xí)平臺(tái)智能文檔處理的基本流程。

圖2 賽博智能學(xué)習(xí)平臺(tái)智能文檔處理流程

未來(lái)，易道博識(shí)將繼續(xù)針對(duì)金融、能源、通信等行業(yè)客戶，在業(yè)務(wù)運(yùn)營(yíng)、審核和監(jiān)督管理、信息檢索和風(fēng)險(xiǎn)管理等場(chǎng)景下，圍繞數(shù)字化、自動(dòng)化和智能化需求，依托賽博智能學(xué)習(xí)平臺(tái)，為企業(yè)打造強(qiáng)大AI底座，助力企業(yè)建設(shè)基于AI模型全生命周期的標(biāo)準(zhǔn)化、一體化生產(chǎn)運(yùn)營(yíng)體系。

賽博智能學(xué)習(xí)平臺(tái)以私有化部署、現(xiàn)場(chǎng)訓(xùn)練的形式滿足客戶對(duì)數(shù)據(jù)安全要求，通過(guò)與業(yè)務(wù)系統(tǒng)深度融合，滿足各業(yè)務(wù)場(chǎng)景在圖像處理、OCR、智能文檔處理和NLP等方向需求。

賽博智能學(xué)習(xí)平臺(tái)持續(xù)將AI大模型等前沿技術(shù)與行業(yè)數(shù)據(jù)深度結(jié)合，在技術(shù)與業(yè)務(wù)場(chǎng)景之間搭橋鋪路，讓AI技術(shù)快速在場(chǎng)景中落地，在應(yīng)用場(chǎng)景中產(chǎn)生價(jià)值，帶動(dòng)產(chǎn)業(yè)發(fā)展和升級(jí)。

上一篇：金融領(lǐng)域數(shù)智化轉(zhuǎn)型創(chuàng)新應(yīng)用和實(shí)踐——賽博智能學(xué)習(xí)平臺(tái)

下一篇：易道博識(shí)榮獲第二屆光合組織AI解決方案大賽一等獎(jiǎng)

返回列表

更多資訊

告別手動(dòng)錄單：OCR如何解決物流單據(jù)處理慢、錯(cuò)、雜三大痛點(diǎn)？

天天鲁一鲁摸一摸爽一爽-免费无码av片在线观看软件-一个人看的视频www在线观看免费-国产不卡一区二区三区在线观看

搜索

淺談智能文檔處理技術(shù)與應(yīng)用

國(guó)內(nèi)統(tǒng)一咨詢服務(wù)熱線

（早09:00 - 晚18:00）