對(duì)于一些掃描后的文件,掃描出來的文件都不是很規(guī)范,有些傾斜,那么怎么才能把這些掃描文件進(jìn)行校正呢?下面小編就給大家?guī)砩袝?hào)文字識(shí)別怎么用 尚書六號(hào)OCR軟件進(jìn)行掃描校正方法。
尚書六號(hào)OCR軟件進(jìn)行掃描校正教程
下面我們主要是介紹,采用MICROTEK掃描儀的驅(qū)動(dòng)軟件SCANWIZARD 5,如何配合尚書六號(hào)OCR軟件做好OCR識(shí)別的工作的要點(diǎn)。
推薦的工作步驟如下:
1. 掃描圖像文件。
建議在桌面上直接使用SCANWIZARD 5軟件,注意將軟件切換到高級(jí)工作模式。原因是這樣能便于用戶檢查掃描儀工作時(shí)的分辨率。
推薦的掃描分辨率設(shè)定在300DPI,色彩模式可以是“RGB彩色”或者“灰階”。
選擇“掃描到”的文件格式是TIF或者JPG兩者都可以。將掃描的文件存在用戶確定的目錄下面。
2. 打開尚書六號(hào)讀取掃描好的圖像文件。
3. 被識(shí)別圖片的預(yù)處理。
這部分工作,主要包括:傾斜校正、設(shè)定正確的識(shí)別區(qū)域。
傾斜校正過程,如圖所示,按下工具欄的最下面的一個(gè)工具。
按下“圖像傾斜校正”工具后,會(huì)出現(xiàn)如下的對(duì)話窗口:
此時(shí)按下“是”按狃。系統(tǒng)就給予圖片做水平的傾斜校正,做完后,結(jié)果如下:
注意,自動(dòng)傾斜校正功能,只能對(duì)原稿做+-2.8度的傾角的校正,如果原稿的傾斜角度大于2.8度,系統(tǒng)會(huì)建議用戶重新掃描稿件,以提高識(shí)別率。
如何正確設(shè)定識(shí)別區(qū)域,這是一個(gè)值得用戶注意的地方:
如下的“海爾”一文,實(shí)際是分成兩個(gè)欄目,進(jìn)行閱讀的,所以我們?cè)谠O(shè)定識(shí)別區(qū)域的時(shí)候,注意需要將這個(gè)特點(diǎn)表現(xiàn)出來,需要設(shè)定兩個(gè)識(shí)別區(qū)域,如圖所示。
對(duì)于一些文字稿件,中間有圖片的時(shí)候,我們建議采用繞開的方式,進(jìn)行識(shí)別區(qū)域的設(shè)定,如下圖:
對(duì)于表格類的圖片,為了將標(biāo)題欄也能識(shí)別進(jìn)去,我們建議采用如下的識(shí)別區(qū)域設(shè)定,特點(diǎn)是表格部分必須整個(gè)框選,同時(shí)標(biāo)題作為一個(gè)單獨(dú)的框選區(qū)域。
4. 開始進(jìn)行識(shí)別
在開始“識(shí)別”的時(shí)候,注意識(shí)別的軟件的設(shè)定值是否正確,默認(rèn)值如下:
5. 識(shí)別校對(duì)完成后,存盤格式的選擇文件保存的類型有四種,建議一般文本的識(shí)別,用戶選擇TXT格式。
如果是表格識(shí)別,識(shí)別結(jié)果請(qǐng)選擇“CSV”格式,用EXCEL能夠打開。