1200字范文 > java 图像识别OCR（一） tess4j

java 图像识别OCR（一） tess4j

时间：2022-02-12 02:58:00

前段时间公司上面突然下来个需求，根据用户提供的身份证和营业执照图片，获取图片中的信息（就是姓名、身份证号、公司名称啥的），然后存入数据库。然后给的时间是两周，当时我就懵逼了，还好后面补了句尽量用免费的API。虽然我内心是想直接用付费的，付费的肯定用着简单又舒服。但免费的也还是得先研究一下，在网上搜索了一圈，基本上只有tess4j这一个了。直接上代码看效果了，老实说看了这么多资料对于tess4j我了解的还是不多。。。

pom依赖

<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.2</version></dependency>

main

import net.sourceforge.tess4j.ITesseract;import net.sourceforge.tess4j.Tesseract;import net.sourceforge.tess4j.TesseractException;import java.io.File;public class test {public static void main(String[] args) {// 识别图片的路径（修改为自己的图片路径）// String path = "C:\\Users\\Tang\\Desktop\\图片\\营业执照4.jpg";String path = "C:\\Users\\Tang\\Desktop\\图片\\身份证3.jpg";// String path = "C:\\Users\\Tang\\Desktop\\图片\\其他图片2.png";// 语言库位置（修改为跟自己语言库文件夹的路径）String lagnguagePath = "D:\\tessdata";File file = new File(path);ITesseract instance = new Tesseract();//设置训练库的位置instance.setDatapath(lagnguagePath);//chi_sim ：简体中文， eng 根据需求选择语言库instance.setLanguage("thz");String result = null;try {long startTime = System.currentTimeMillis();result = instance.doOCR(file);long endTime = System.currentTimeMillis();System.out.println("Time is：" + (endTime - startTime) + " 毫秒");} catch (TesseractException e) {e.printStackTrace();}System.out.println("result: ");System.out.println(result);}}

这里需要注意修改的有几点

图片的位置语言库的位置选择的语言库

语言库这里给大家下载链接

github

最后运行结果大概是下面这样的

可以看到还是有很多不准确的地方，这怎么行呢。得想办法提高准确的啊，于是又在网上搜了一圈，基本上都是优化语言训练库和openVC的方法。

openVC已经有大佬写了demo上传到码云了，地址

我把代码拉下来试了一下，作者的处理方法是在前端页面将身份证号码那一块裁剪下来传入后端识别，准确度基本达到了99%。但是仅仅是身份证号码对我来说并不够，对于地址姓名等中文识别还是不太又好。

然后就是优化语言训练库了

参考了Tesseract4.0训练字库 OCR 提高识别率必备(超详情)这篇文章也去试了一下。方法应该是可行的，但是应该需要大量的训练才能达到极高的准确度。（这篇文章里用的这种图片基本都还好，但是用到身份证和营业执照上，用训练的照片去识别都仍有差别，感觉是需要极大数据量才能减小误差了）。

开源API这条路暂时是走不通了。

研究研究付费的吧。