1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > python利用Tesseract识别验证码

python利用Tesseract识别验证码

时间:2020-04-19 16:51:37

相关推荐

python利用Tesseract识别验证码

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocrpytesseracttesserocrpytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract

下载安装

下载地址:https://digi.bib.uni-mannheim...

下载完成后,双击安装,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从/tesseract-... 下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR添加到环境变量中。进入命令提示符,输入tesseract,显示下图结果,说明配置完成

查看安装了的语言包:tesseract --list-langs

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

基本使用语法

tesseract image.png result(tesseract 图片名称 生成文件名称)

结果

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装pip install pytesseract

识别验证码脚本

import pytesseractfrom PIL import Imageim=Image.open('pin.png')print(pytesseract.image_to_string(im))

结果

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseractfrom PIL import Imageim=Image.open('5.jpg')#进行置灰处理im=im.convert('L')#这个是二值化阈值threshold=150table=[]for i in range(256):if i<threshold:table.append(0)else:table.append(1)#通过表格转换成二进制图片,1的作用是白色,0就是黑色im=im.point(table,"1")im.show()print(pytesseract.image_to_string(im))

原图

置灰和二值化后

想要提高识别率只能下载训练好的语言包,如上述所说,或者用深度学习的方法训练机器

原文地址:https://nolon.xyz/archives/77/

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。