Tesseract-OCR識別中文與訓(xùn)練字庫實例

時間：2018-10-09 18:06:12

關(guān)鍵字： tesseract-ocr 中文識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]關(guān)于中文的識別，效果比較好而且開源的應(yīng)該就是Tesseract-OCR了，所以自己親身試用一下，分享讓有同樣興趣的人少走彎路。一、準備工作1、下載Tesseract-OCR引擎，注意要3.0以上才支持

關(guān)于中文的識別，效果比較好而且開源的應(yīng)該就是Tesseract-OCR了，所以自己親身試用一下，分享讓有同樣興趣的人少走彎路。

一、準備工作

1、下載Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安裝就行。

2、下載chi_sim.traindata字庫。要有這個才能識別中文。下好后，放到Tesseract-OCR項目的tessdata文件夾里面。

3、下載jTessBoxEditor，這個是用來訓(xùn)練字庫的。

以上的幾個在百度都能找到下載，就不詳細講了。

二、識別

1、進入cmd，進入到要識別的圖片的路徑下。

2、輸入命令

1tesseract 圖片名稱生成的結(jié)果文件的名稱字庫

例如我的圖片識別就是：

1tesseract test.jpg result -l chi_sim

識別完后會生成result.txt文件

當然啦效果不太理想。所以我們要訓(xùn)練自己的字庫。

三、訓(xùn)練

1、將圖片轉(zhuǎn)換成tif格式，用于后面生成box文件?？梢酝ㄟ^畫圖，然后另存為tif即可。

更改圖片名字，這個是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體?
比如我們要訓(xùn)練自定義字庫 mjorcen字體名normal
那么我們把圖片文件重命名 mjorcen.normal.exp0.jpg在轉(zhuǎn)tif。

2、生成box文件。

1tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

box文件和對應(yīng)的tif一定要在相同的目錄下，不然后面打不開。

3、打開jTessBoxEditor矯正錯誤并訓(xùn)練

打開train.bat

找到tif圖，打開，并校正。

4、訓(xùn)練。

只要在命令行輸入命令即可。

1tesseract? mjorcen.normal.exp0.jpg mjorcen.normal.exp0? nobatch box.train1unicharset_extractor mjorcen.normal.exp0.box

在這我明明已經(jīng)矯正好了，但是還是有1個字符不能識別出來，報的錯跟實際上完全沒有相關(guān)性，不知道是不是bug，到后面的結(jié)果就是“園”字沒有識別出來。

先不管，畢竟只有一個樣本。

新建一個font_properties文件

里面內(nèi)容寫入 normal 0 0 0 0 0 表示默認普通字體

繼續(xù)敲命令

1 2 3 4 5 6 7 8 9shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr? ? ?mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr? ? ?cntraining mjorcen.normal.exp0.tr

最后會生成五個文件，把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上normal.

如圖：

命令行輸入，合并五個文件：

1combine_tessdata normal.

得到訓(xùn)練好的字庫。

四、測試

1、把 normal.traineddata 復(fù)制到Tesseract-OCR 安裝目錄下的tessdata文件夾中

2、識別命令：

1tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l normal

3、效果

對比：

總結(jié)：肯定要自己訓(xùn)練過后的字庫識別效果好，接下來要把整個項目弄進android，還要研究怎么將多個字庫合并成一個字庫，因為我不可能一次訓(xùn)練完所有的圖片文字的。到時候有什么成果了再分享。

更新：沒有錯誤的話命令行的提示應(yīng)該是這樣的

Tesseract-OCR識別中文與訓(xùn)練字庫實例

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

中國通信服務(wù)公布2024年中期業(yè)績

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

軟通動力與長三角投資達成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達成戰(zhàn)略合作，共同推動新能源出行體驗

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競?cè)。蚱剖袌鰞?nèi)卷實現(xiàn)認知進化"

恒久動力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗

美通社母公司Cision發(fā)布CisionOne平臺，進軍亞太地區(qū)媒體監(jiān)測市場

移遠通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計業(yè)績

華為發(fā)布AI百校計劃：培養(yǎng)AI人才每年獲最高100萬支持