1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > Tesseract-OCR对图像和PDF进行光学文字识别

Tesseract-OCR对图像和PDF进行光学文字识别

时间:2021-07-22 15:01:56

相关推荐

Tesseract-OCR对图像和PDF进行光学文字识别

本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数,以及gImageReader图形界面,并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果。主要包括以下几个方面:

Tesseract-OCR概述Tesseract的下载安装Tesseract的运行参数gImageReader的图形界面

本文使用的软件版本:

Ubuntu 20.04(focal)Tesseract-ocr 4.00gImageReader3.3.1

1 Tesseract-OCR概述

Tesseract是一个开源文本识别(OCR)引擎,最初在1985年至1994年间由惠普实验室开发,1996年进行了一些修改后将其移植到Windows系统,1998年进行了一些C++化。,惠普对Tesseract进行了开源。从到11月由谷歌进行开发。

Tesseract在Apache2.0许可下免费使用,目前的官方发布版本为4.1.1,当前稳定的主分支5.0.0版从11月30日起正在开发过程中。根据Apache许可2.0的条款,Tesseract可以在自己的项目中使用,可以为各种目标进行编译,包括安卓和iPhone。

Tesseract支持UTF-8,可识别100多种语言。Tesseract支持多种输出格式:纯文本、hOCR(HTML)、PDF、仅不可见文本的PDF、TSV。在很多情况下,为了获得更好的OCR结果,您需要提高您提供的图像质量。

Tesseract可以通过命令行直接使用,同时还提供了一个功能齐全的编程接口(API),程序员可以通过这个编程接口从图像中提取打印的文本。

2 Tesseract的下载安装

Tesseract的源代码托管在GitHub上(/tesseract-ocr/tesseract),可能从源代码编译安装,大多数的用户更喜欢使用编译好的二进制安装包来安装。对于Windows版本,目前没有最新的官方安装包,但是可以从曼海姆大学图书馆(UB Mannheim,/UB-Mannheim/tesseract/wiki)获得编译好的最新版Windows安装包

Linux大部分发布版本中都包含有Tesseract。如在Ubuntu中,只需要简单输入以下命令就可以安装Tesseract和相应的语言包了。

sudo apt install tesseract-ocr tesseract-ocr-chi-sim tesseract-ocr-chi-sim-vert

通常,除了英语之外,安装时会再加上中文和中文坚版两种语言包,如果还需要识别其他语言的话可以在管理器中进行搜索安装。

3 Tesseract的运行参数

Tesseract基本运行命令如下:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode]

其中:

imagename为图像文件名称;

outputbase为输出文件名称;

lang为想要识别的语言,默认为eng;

ocrenginemode为OCR引擎,1代表LSTM,0代表传统方法。

想要了解更多的命令行选项也可以输入tesseract --help或者man tesseract来详细查看。.

4gImageReader的图形界面

使用命令行运行的方式大多数时候都是给程序员使用的,普通用户更喜欢使用图形界面的方式来运行应用程序。遗憾的是Tesseract没有内置的图形用户界面(GUI),这也让很多厂家有更多的动力来提供第三方图形用户界面。

其中一个比较好用的图形界面为gImageReader(源代码托管在/manisandro/gImageReader),这是一个由GTK/Qt开发的Tesseract前端,可以Linux和Windows下运行,图形化界面有如下功能:

从磁盘、扫描设备、剪贴板中导入PDF文档、图像以及屏幕截图一次处理多个图像和文档手动或自动定义识别区域识别结果可保存为纯文本或hOCR文档直接显示在图像旁边的已识别的文本对识别的文档进行后处理,包括拼写检查等从hOCR文档中生成PDF文档

在Ubuntu下安装使用apt安装gImageReader很方便。安装完后,运行图形界面,打开“文件”导入一个PDF文件,选择纯文本方式输出,选择识别的语言。如果这时还没有安装语言的话可以打开“语言管理器”来选择需要安装的语言,如下选择了“简体中文”和“简体中文(横排)”两种语言。

默认的语言文件下载目录为C:\Program Files\gImageReader\share\tessdata,如果下载耗时太长或者失败,也可以把别处下载好的语言文件直接复制到这个目录下。最后点击“辨认全部即可在右侧显示出识别结果,最终显示结果如下:

(2)在Windows下安装gImageReader

从以下地址下载Windows版gImageReader

/manisandro/gImageReader/releases/download/v3.3.1/gImageReader_3.3.1_qt5_x86_64.exe

首次运行时会提示没有安装任何识别语言。

在右上角的“设置”中找到“语言管理器”,下载安装“简体中文”和“简体中文(竖版)”两种识别语言。

最后,从剪贴板上粘贴一张图像,看一下文字识别的效果。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。