1200字范文 > JAVA——Tess4J简单的图像识别DEMO

JAVA——Tess4J简单的图像识别DEMO

时间：2024-06-24 05:58:50

基本概念

Tesseract Open Source OCR Engine：包含一个OCR引擎-libtesseract和一个命令行程序-tesseract。Tesseract 4添加了一个新的基于LSTM的OCR引擎，该引擎专注于行识别，但仍支持Tesseract 3的传统Tesseract OCR引擎，该引擎通过识别字符模式进行工作。通过使用传统OCR引擎模式（--oem 0），可以与Tesseract 3兼容。它还需要训练有素的数据文件来支持旧式引擎，例如tessdata存储库中的文件。

Tess4J：Tesseract OCR API的Java JNA包装器。

Maven

<dependencies><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.4.0</version></dependency></dependencies>

GitHub

Tesseract Open Source OCR Engine ：/tesseract-ocr/tesseract
Tess4J项目：/nguyenq/tess4j
语言库：/tesseract-ocr/tessdata/blob/master/eng.traineddata

DEMO

1、首先创建一个新的maven项目，将所需jar包引入pom.xml

2、在任意地方创建一个文件夹tessdata，将下载的chi_sim.traineddata 和 eng.traineddata语言包存放在该目录下，也可以直接存放到自己项目的resources/tessdata目录下。

3、编写代码

// 识别图片的路径（修改为自己的图片路径）String path = "D:\\test.jpg";// 语言库位置（修改为跟自己语言库文件夹的路径）String lagnguagePath = "D:\\tessdata";File file = new File(path);ITesseract instance = new Tesseract();//设置训练库的位置instance.setDatapath(lagnguagePath);//chi_sim ：简体中文， eng 根据需求选择语言库instance.setLanguage("eng");String result = null;try {long startTime = System.currentTimeMillis();result = instance.doOCR(file);long endTime = System.currentTimeMillis();System.out.println("Time is：" + (endTime - startTime) + " 毫秒");} catch (TesseractException e) {e.printStackTrace();}System.out.println("result: ");System.out.println(result);