表單識(shí)別:準(zhǔn)確快速實(shí)現(xiàn)紙質(zhì)表格表單的電子化
作者:admin
更新時(shí)間:2022-03-22
點(diǎn)擊數(shù):
表單識(shí)別是在OCR識(shí)別核心基礎(chǔ)上開(kāi)發(fā)的基于固定表格識(shí)別的一種OCR識(shí)別工具,適用于具有表格特征的表單、票據(jù)、單證等。通過(guò)掃描、圖像處理、自動(dòng)分類(lèi)、OCR(光學(xué)字符識(shí)別)技術(shù),將表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實(shí)地提取并保存。 應(yīng)用背景 表格表單是一種高度精煉,集中的信息表達(dá)手段,紙質(zhì)表格被廣泛的應(yīng)用于數(shù)據(jù)采集,將紙質(zhì)表格數(shù)據(jù)轉(zhuǎn)換成電子數(shù)據(jù)是信息化必然趨勢(shì)。然而,傳統(tǒng)的人工數(shù)據(jù)錄入方式需要由專(zhuān)門(mén)的數(shù)據(jù)錄入員將數(shù)據(jù)一條一條手動(dòng)錄入到計(jì)算機(jī)存儲(chǔ),這種方式耗費(fèi)了大量的人力和時(shí)間,存在許多弊端: 錄單任務(wù)繁重、強(qiáng)度大、錄入員在高強(qiáng)度重復(fù)工作狀態(tài)下極易疲勞出錯(cuò); 增加錄單人手、增加計(jì)算機(jī)設(shè)備都導(dǎo)致辦公成本增加; 業(yè)務(wù)劇增,表格表單文件數(shù)量龐大,企業(yè)機(jī)構(gòu)需要耗費(fèi)更多的人力和時(shí)間去處理這些表格表單。 OCR表單識(shí)別應(yīng)用 隨著OCR技術(shù)的出世與應(yīng)用,表格表單信息錄入管理模式也隨之發(fā)生了改變,通過(guò)OCR表單識(shí)別技術(shù),實(shí)現(xiàn)表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實(shí)地提取,最大程度上減少企業(yè)員工的工作量。 廈門(mén)憑借其十幾年的OCR研發(fā)經(jīng)驗(yàn)和技術(shù)積累,以及對(duì)市場(chǎng)的深入調(diào)查,全面推出表單識(shí)別技術(shù),為客戶(hù)提供企業(yè)級(jí)的數(shù)據(jù)采集方案,大大提高計(jì)算機(jī)識(shí)別表單票據(jù)的準(zhǔn)確率和速度,促進(jìn)企業(yè)機(jī)構(gòu)紙質(zhì)表單信息化。 表單識(shí)別包含國(guó)內(nèi)尖端的票據(jù)表格核心處理技術(shù),可根據(jù)各類(lèi)紙質(zhì)票據(jù)、表格、單證等排版特點(diǎn),按區(qū)域分別將不同的內(nèi)容識(shí)別并提取成字符、圖像等電子數(shù)據(jù)。這就意味著利用表單識(shí)別,可以針對(duì)自定義模板處理各種形式、格式的表單,無(wú)論大小、布局和內(nèi)容,可根據(jù)自定義欄目、文本進(jìn)行框選后識(shí)別。 通過(guò)深度的OCR引擎識(shí)別和文本處理技術(shù)給予表格表單提供了無(wú)與倫比的文檔分析和數(shù)據(jù)的提取功能,表單識(shí)別包含了先進(jìn)的模板學(xué)習(xí)和文本、圖像分析提取技術(shù),通過(guò)模板元素定義表單,將整個(gè)表單生命周期和生產(chǎn)數(shù)據(jù)以自動(dòng)化形式產(chǎn)出數(shù)據(jù)資源,節(jié)省人工的處理時(shí)間。 表單識(shí)別的優(yōu)勢(shì): 識(shí)別表格種類(lèi)多,各種銀行單據(jù)、票據(jù)、測(cè)評(píng)表等固定性表格都能識(shí)別; 表格分類(lèi)精確,可實(shí)現(xiàn)各種表格、票據(jù)的自動(dòng)分類(lèi) 識(shí)別速度快,單張平均識(shí)別時(shí)間小于2秒; 識(shí)別率高,字符識(shí)別率>96%,欄目識(shí)別率>97%; API開(kāi)發(fā)支持Java、C++、C、object pascal及objective-C等多種語(yǔ)言。