1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > Tesseract-ocr文字识别研究二

Tesseract-ocr文字识别研究二

时间:2024-03-15 19:14:41

相关推荐

Tesseract-ocr文字识别研究二

一般的正规字体是宋体,如果用专门的宋体二值化图片进行训练,就可以得到本地ocr识别库,是非常准确的。至少在本机上是的。对常用汉字进行ocr文字识别,可以得到本地ocr识别的训练库。

从默认chi_ms创建box画的框不靠谱,所以必须自己调整。--psm 7这样识别出来的文字只能按原来的字数识别。

说说训练的合并,用记事本打开会发现明显用列表排成,投了个巧,将另一个数据复制到这里面,发现没有卵用。想想也是,如果那么简单的话,还需要那些教程吗?

为了方便做文字识别的练习,我做两三个脚本,一个是在jTessBoxEditor.jar,能够快速地输入字库。

做核对文字输入之前,稍微调整一下方框,谨记一定要按顺序,目前最好的方法是,比如某一个字少一个框,那么点它的右边那个框,然后点insert,将之前的框按顺序归位到左边的字。(Merge是合并,Splite是分割)原则上只要方框调整好了,核对可以一键完成。但是有些字的方框可能会向下延伸到下面的字,又比较难一眼看出。所以最好还是要对一遍。对的时候,注意看字是否正确,还有方框需不需要调整。

上面那个录像的脚本还可以更完善一点,目前我只用了2-3次,后面还做了合并字库的练习,就没有继续弄。将tooltip窗口同步生成在红框下面,这样核对的时候,会方便多了。录像中是跟随鼠标。

我还做了两个批处理的脚本,老是要改名字非常麻烦,所以结合autohotkey写了一个传参的。一个是对于单个图片处理的,原则上只要将box调整并核对好文字。点一下批处理,就自动生成了训练数据。还做了一个快捷键,对选中的图片一键识别文字。

今天还抽空完成了合并traineddata文件,并写了一个合并的bat。只要把tif文件拖到文件夹里面,点击启动按钮就自动生成新的合并训练字库,这样就免掉了改写bat的麻烦。

另外我还收集了常用字3500个,但是不打算全部识别。下面针对某些点说说一些个人的心得:

要用记事本,字体为宋体,常规,二号。可以用截图工具自动命名,生成tif格式的图片,这样就免去了另外还得生成一个tif的麻烦。

关于这个项目Tesseract-ocr的教程主要可以到csdn或者知乎学习一下前人的经验心得,我在知乎上还看到一篇文章针对Tesseract-ocr4.0以上版本用LSTM做训练的教程。文章==>Tesseract 4.0 LSTM训练超详细教程

经过我的初步测试,针对印刷体,电脑的规范字体,识别率基本是100%,本文尝试的方法是3.0以下的一般方法,进阶LSTM训练暂时先不研究。至此Tesseract本地文字识别就告一段落了。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。