1200字范文 > Tesseract-ocr文字识别研究二

Tesseract-ocr文字识别研究二

时间：2024-03-15 19:14:41

一般的正规字体是宋体，如果用专门的宋体二值化图片进行训练，就可以得到本地ocr识别库，是非常准确的。至少在本机上是的。对常用汉字进行ocr文字识别，可以得到本地ocr识别的训练库。

从默认chi_ms创建box画的框不靠谱，所以必须自己调整。--psm 7这样识别出来的文字只能按原来的字数识别。

说说训练的合并，用记事本打开会发现明显用列表排成，投了个巧，将另一个数据复制到这里面，发现没有卵用。想想也是，如果那么简单的话，还需要那些教程吗？

为了方便做文字识别的练习，我做两三个脚本，一个是在jTessBoxEditor.jar，能够快速地输入字库。

做核对文字输入之前，稍微调整一下方框，谨记一定要按顺序，目前最好的方法是，比如某一个字少一个框，那么点它的右边那个框，然后点insert，将之前的框按顺序归位到左边的字。（Merge是合并，Splite是分割）原则上只要方框调整好了，核对可以一键完成。但是有些字的方框可能会向下延伸到下面的字，又比较难一眼看出。所以最好还是要对一遍。对的时候，注意看字是否正确，还有方框需不需要调整。

上面那个录像的脚本还可以更完善一点，目前我只用了2-3次，后面还做了合并字库的练习，就没有继续弄。将tooltip窗口同步生成在红框下面，这样核对的时候，会方便多了。录像中是跟随鼠标。

我还做了两个批处理的脚本，老是要改名字非常麻烦，所以结合autohotkey写了一个传参的。一个是对于单个图片处理的，原则上只要将box调整并核对好文字。点一下批处理，就自动生成了训练数据。还做了一个快捷键，对选中的图片一键识别文字。

今天还抽空完成了合并traineddata文件，并写了一个合并的bat。只要把tif文件拖到文件夹里面，点击启动按钮就自动生成新的合并训练字库，这样就免掉了改写bat的麻烦。

另外我还收集了常用字3500个，但是不打算全部识别。下面针对某些点说说一些个人的心得：

要用记事本，字体为宋体，常规，二号。可以用截图工具自动命名，生成tif格式的图片，这样就免去了另外还得生成一个tif的麻烦。

关于这个项目Tesseract-ocr的教程主要可以到csdn或者知乎学习一下前人的经验心得，我在知乎上还看到一篇文章针对Tesseract-ocr4.0以上版本用LSTM做训练的教程。文章==>Tesseract 4.0 LSTM训练超详细教程

经过我的初步测试，针对印刷体，电脑的规范字体，识别率基本是100%，本文尝试的方法是3.0以下的一般方法，进阶LSTM训练暂时先不研究。至此Tesseract本地文字识别就告一段落了。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。