1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > TensorFlow练习20: 使用深度学习破解字符验证码

TensorFlow练习20: 使用深度学习破解字符验证码

时间:2022-10-06 16:59:43

相关推荐

TensorFlow练习20: 使用深度学习破解字符验证码

验证码是根据随机字符生成一幅图片,然后在图片中加入干扰象素,用户必须手动填入,防止有人利用机器人自动批量注册、灌水、发垃圾广告等等 。

验证码的作用是验证用户是真人还是机器人;设计理念是对人友好,对机器难。

上图是常见的字符验证码,还有一些验证码使用提问的方式。

我们先来看看破解验证码的几种方式:

人力打码(基本上,打码任务都是大型网站的验证码,用于自动化注册等等) 找到能过验证码的漏洞 最后一种是字符识别,这是本帖的关注点

我上网查了查,用Tesseract OCR、OpenCV等等其它方法都需把验证码分割为单个字符,然后识别单个字符。分割验证码可是人的强项,如果字符之间相互重叠,那机器就不容易分割了。

本帖实现的方法不需要分割验证码,而是把验证码做为一个整体进行识别。

相关论文:

Multi-digit Number Recognition from Street View Imagery using Deep CNN CAPTCHA Recognition with Active Deep Learning http://matthewearl.github.io//05/06/cnn-anpr/

使用深度学习+训练数据+大量计算力,我们可以在几天内训练一个可以破解验证码的模型,当然前提是获得大量训练数据。

获得训练数据方法:

手动(累死人系列) 破解验证码生成机制,自动生成无限多的训练数据 打入敌人内部(卧底+不要脸+不要命+多大仇系列)

我自己做一个验证码生成器,然后训练CNN模型破解自己做的验证码生成器。

我觉的验证码机制可以废了,单纯的增加验证码难度只会让人更难识别,使用CNN+RNN,机器的识别准确率不比人差。Google已经意识到了这一点,他们现在使用机器学习技术检测异常流量。

验证码生成器

左上角文本对应验证码图像

训练

CNN需要大量的样本进行训练,由于时间和资源有限,测试时我只使用数字做为验证码字符集。如果使用数字+大小写字母CNN网络有4*62个输出,只使用数字CNN网络有4*10个输出。

TensorBoard是个好东西,既能用来调试也能帮助理解Graph。

训练完成时的准确率(超过50%我就不训练了):

使用训练的模型识别验证码:

loss和准确率曲线:

为了成为真正的码农,本熊猫要开始研习TensorFlow源代码了,应该能学到不少玩意。

如要转载,请保持本文完整,并注明作者@斗大的熊猫和本文原始地址:/archives/10858

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。