如何使用Python机器学习解决验证码的资料说明.doc
《如何使用Python机器学习解决验证码的资料说明.doc》由会员分享,可在线阅读,更多相关《如何使用Python机器学习解决验证码的资料说明.doc(3页珍藏版)》请在三一文库上搜索。
1、如何使用Python机器学习解决验证码的资料说明写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种:图像类滑动类点击类语音类今天先来看看图像类,这类验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。相应的,验证码识别大体可以分为下面几个步骤:灰度处理增加对比度(可选)二值化降噪倾斜校正分割字符建立训练库识别由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,这样做的好处就是可以有大量的知道明确结果的数据集。当需要真实环境下需要获取数据时,可以使用结合各个大码平台来建立数据集进行训练
2、。生成验证码这里我使用Claptcha这个库,当然Captcha这个库也是个不错的选择。为了生成最简单的纯数字、无干扰的验证码,首先需要将claptcha.py的285行_drawLine做一些修改,我直接让这个函数返回None,然后开始生成验证码:这里需要注意ubuntu的字体路径,也可以在网上下载其他字体使用。生成验证码如下:可以看出,验证码有形变。对于这类最简单的验证码,可以直接使用谷歌开源的tesserocr来识别。首先安装:然后开始识别:可以看出,对于这种简单的验证码,基本什么都不做识别率就已经很高了。有兴趣的小伙伴可以用更多的数据来测试,这里我就不展开了。接下来,在验证码背景添加噪
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 如何 使用 Python 机器 学习 解决 验证 资料 说明
链接地址:https://www.31doc.com/p-3421501.html