首页 / PYTHON / 使用Python在图像验证码中删除行

使用Python在图像验证码中删除行

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python在图像验证码中删除行，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3530字，纯文字阅读大概需要6分钟。

内容图文

我使用了这个链接 – How to remove line from captcha completely并编辑了提供的代码,以便从我在下面给出的虚拟验证码中删除线条

lineRemoval.py

from PIL import Image,ImageFilter
from scipy.misc import toimage
from operator import itemgetter
from skimage import measure
import numpy as np
import heapq
import cv2
import matplotlib.pyplot as plt
from scipy.ndimage.filters import median_filter



#----------------------------------------------------------------

class preprocessing:
    def pre_proc_image(self,img):
        img_removed_noise=self.apply_median_filter(img)
        #img_removed_noise=self.remove_noise(img)
        p1,p2,LL=self.get_line_position(img_removed_noise)
        img=self.remove_line(p1,p2,LL,img_removed_noise)
        img=median_filter(np.asarray(img),1)
        return img

    def remove_noise(self,img):
        img_gray=img.convert('L')
        w,h=img_gray.size
        max_color=np.asarray(img_gray).max()
        pix_access_img=img_gray.load()
        row_img=list(map(lambda x:255 if x in range(max_color-15,max_color+1) else 0,np.asarray(img_gray.getdata())))
        img=np.reshape(row_img,[h,w])
        return img

    def apply_median_filter(self,img):
        img_gray=img.convert('L')
        img_gray=cv2.medianBlur(np.asarray(img_gray),3)
        img_bw=(img_gray>np.mean(img_gray))*255
        return img_bw

    def eliminate_zeros(self,vector):
        return [(dex,v) for (dex,v) in enumerate(vector) if v!=0 ]

    def get_line_position(self,img):
        sumx=img.sum(axis=0)
        list_without_zeros=self.eliminate_zeros(sumx)
        min1,min2=heapq.nsmallest(2,list_without_zeros,key=itemgetter(1))
        l=[dex for [dex,val] in enumerate(sumx) if val==min1[1] or val==min2[1]]
        mindex=[l[0],l[len(l)-1]]
        cols=img[:,mindex[:]]
        col1=cols[:,0]
        col2=cols[:,1]
        col1_without_0=self.eliminate_zeros(col1)
        col2_without_0=self.eliminate_zeros(col2)
        line_length=len(col1_without_0)
        dex1=col1_without_0[round(len(col1_without_0)/2)][0]
        dex2=col2_without_0[round(len(col2_without_0)/2)][0]
        p1=[dex1,mindex[0]]
        p2=[dex2,mindex[1]]
        return p1,p2,line_length

    def remove_line(self,p1,p2,LL,img):
        m=(p2[0]-p1[0])/(p2[1]-p1[1]) if p2[1]!=p1[1] else np.inf
        w,h=len(img),len(img[0])
        x=list(range(h))
        y=list(map(lambda z : int(np.round(p1[0]+m*(z-p1[1]))),x))
        img_removed_line=list(img)
        for dex in range(h):
            i,j=y[dex],x[dex]
            i=int(i)
            j=int(j)
            rlist=[]
            while i>=0 and i<len(img_removed_line)-1:
                f1=i
                if img_removed_line[i][j]==0 and img_removed_line[i-1][j]==0:
                    break
                rlist.append(i)
                i=i-1
            i,j=y[dex],x[dex]
            i=int(i)
            j=int(j)
            while i>=0 and i<len(img_removed_line)-1:
                f2=i
                if img_removed_line[i][j]==0 and img_removed_line[i+1][j]==0:
                    break
                rlist.append(i)
                i=i+1
            if np.abs(f2-f1) in [LL+1,LL,LL-1]:
                rlist=list(set(rlist))
                for k in rlist:
                    img_removed_line[k][j]=0

        return img_removed_line

if __name__ == '__main__':
    image = cv2.imread("captcha.png")
    img = Image.fromarray(image)
    p = preprocessing()
    imgNew = p.pre_proc_image(img)
    cv2.imshow("Input", np.array(image))
    cv2.imshow('Output', np.array(imgNew, dtype=np.uint8))
    cv2.waitKey(0)

代码没有错误,但是输出图像没有删除任何行,看起来有点像这样：

我希望输出完全没有任何形式的线条或至少降低它们的强度,以便以后它可以与pytesseract一起使用来识别验证码中提到的字母.

更新

验证码数据集中几乎没有异常,其中线具有相同的强度,如下所示

在对这些图像进行阈值处理后,它们中还有一些线条

浏览网后,我发现你可以在这些图像上使用侵蚀和扩张技术去除这些线,但是使用这些技术,pytesseract无法识别这些字符,因为我没有得到非常清晰的输出.

是否有任何其他建议的技术可以应用于这些图像集,以便以后pytesseract可以识别这些字符？

解决方法:

在这种特殊情况下,线条的密度似乎小于字符密度.
所以通过应用一些阈值方法,你可以删除行：

例如,以下行给出了这个：

retval,image = cv2.threshold(image,12,255,cv2.THRESH_BINARY)

稍后通过应用一些噪声消除方法,如中位数(来自您自己的代码),您可以得到以下结果：

内容总结

以上是互联网集市为您收集整理的使用Python在图像验证码中删除行全部内容，希望文章能够帮你解决使用Python在图像验证码中删除行所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/781433.html

来源：【匿名】

【上一篇】python – 如何在conda environment.yml文件中设置可选参数？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用Python在图像验证码中删除行】教程文章相关的互联网学习教程文章

python爬虫中图形验证码的处理【代码】【图】

使用python爬虫自动登录时，遇到需要输入图形验证码的情况，一个比较简单的处理方法是使用打码平台识别验证码。使用过两个打码平台，打码兔和若快，若快的价格更便宜，识别率相当。若快需要注册两个帐号：开发者帐号与用户帐号，用户帐号用于发送识别请求，开发者帐号可以注册软件id，并于识别请求进行绑定，可以参与识别收入的分成返现。获取图形验证码目前发现的有两种方式：0x01 在抓包中可以直接获得图片：发送get请求可以直接...

python 生成验证码很简单：random和srting的方法【代码】

介绍random和string的有关用法，基础的。sting:------------------获取到0-9十个数字和26个小写大写字母，一共62个。 string.printable:>>>string.printable >>>‘0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\‘()*+,-./: ;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c‘ >>> text=string.printable >>> text ‘0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\‘()*+,-./: ;<=>?@[...

利用Python几行代码批量生成验证码【代码】【图】

几行代码批量生成authCode整体步骤：1.创建图片2.创建画笔3.在图片上生成点4.在图片上画线5.在图片在画圆6.在图片在写文本7.在图片在生成指定字体的文本代码奉上#!/usr/bin/env python# author:Torre Yang# datetime:2018/9/9 10:18# 改进：1.自适应调整验证码的数量;2.随机输出字符import randomimport logginglogging.basicConfig(level=logging.INFO)# 导入Image,ImageDraw,ImageFont模块from PIL import Image, ImageDraw, Ima...

Python随机生成一个6位的验证码代码分享

1. 生成源码复制代码代码如下: # -*- coding: utf-8 -*- import randomdef generate_verification_code(): ‘‘‘ 随机生成6位的验证码 ‘‘‘ code_list = [] for i in range(10): # 0-9数字 code_list.append(str(i)) for i in range(65, 91): # A-Z code_list.append(chr(i)) for i in range(97, 123): # a-z code_list.append(chr(i)) myslice = random.sample(code_list, 6)...

利用Python生成随机4位验证码

""" 作者：白时间：2018年1月8日功能: 生成随机4位验证码（必须由两个2字母和2个数字组成） """ import randomdef main(): list_num = [1,2,3,4,5,6,7,8,9,0] list_str = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','s','t','x','y','z'] veri_str = random.sample(list_str,2) veri_num = random.sample(list_num,2) veri_out = random.sam...

python第一百一十八天---ajax--图片验证码 + Session【代码】

原生AJAXAjax主要就是使用【XmlHttpRequest】对象来完成请求的操作，该对象在主流浏览器中均存在(除早起的IE)，Ajax首次出现IE5.5中存在（ActiveX控件）。1、XmlHttpRequest对象介绍XmlHttpRequest对象的主要方法： 1XmlHttpRequest对象的主要方法：2 a. void open(String method,String url,Boolen async)3 用于创建请求4 5 参数：6 method：请求方式（字符串类型），如：POST、GET、DELETE...7 url：要...

学习python：实例2.用PIL生成随机验证码【代码】【图】

效果：650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108051529215.jpg" title="yanzhengma.gif" />代码：# 生成随机验证码图片import string from random import randint, sample from PIL import Image, ImageDraw, ImageFont, ImageFilter # Image 负责处理图片 # ImageDraw 画笔 # ImageFont 文字 # ImageFileter 滤镜# 定义变量 img_size = (150,50) # 定义画布大小 img_rgb = (255,255,255) ...

用Python实现随机验证码【代码】

0.说明在网络上各种平台上登陆时，都会看到各种各样的验证码，大部分都是字母+数字的随机验证码，下面来主要是通过Python生成一个可以包含大小写字母和数字的随机验证码。1.思路在Python中，内置函数chr可以将相应的0~255的数字转换为相应的字符，而ord则可以将字符码转换为相应的ASCII值，如下：>>> chr(65) ‘A‘ >>> >>> ord(‘A‘) 65 不过这里我们主要使用chr，即只要可以随机生成大小写字母所对应的ASCII值，就可...

python下调用pytesseract识别某网站验证码

转自：https://www.cnblogs.com/zhongtang/p/5560361.html 一、pytesseract介绍1、pytesseract说明pytesseract最新版本0.1.6，网址：https://pypi.python.org/pypi/pytesseractPython-tesseract is a wrapper for google‘s Tesseract-OCR( http://code.google.com/p/tesseract-ocr/ ). It is also useful as astand-alone invocation script to tesseract, as it can read all image typessupported by the Python Imaging Librar...

python selenium3 模拟点击+拖动+保存验证码测试对象 58同城验证码【代码】

#!/usr/bin/python # -*- coding: UTF-8 -*- # @Time : 2019/12/5 17:30 # @Author : shenghao/10347899@qq.com‘‘‘test with selenium‘s move‘‘‘from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By import cv2 as cv import time, datetime, random,shutil from...

python如何识别验证码【图】

在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题，现在的验证码大多分为四类：1、计算验证码2、滑块验证码3、识图验证码4、语音验证码这里主要是识别验证码，识别的是简单的验证码，要想让识别率更高，识别的更加准确就需要花很多的精力去训练自己的字体库。识别验证码通常是这几个步骤：1、灰度处理2、二值化3、去除边框（如果有的话）4、降噪5、切割字符或者倾斜度矫正6、训练字体库7、识别这6个步骤中前三个...

selenium+cookie跳过验证码登录实现步奏详解【图】

这次给大家带来selenium+cookie跳过验证码登录实现步奏详解，selenium+cookie跳过验证码登录的注意事项有哪些，下面就是实战案例，一起来看一下。之前介绍过通过cookie 绕过验证码实现登录的方法。这里并不多余，会增加分析和另外一种方法实现登录。1、思路介绍 1.1、直接看代码，内有详细注释说明# FileName : Wm_Cookie_Login.py # Author : Adil # DateTime : 2018/3/20 19:47 # SoftWare : PyCharm from selenium import webd...

PythonSeleniumCookie绕过验证码实现登录示例代码_【图】

这篇文章主要介绍了Python Selenium Cookie 绕过验证码实现登录示例代码，现在分享给大家，有需要的朋友可以参考一下之前介绍过通过cookie 绕过验证码实现登录的方法。这里并不多余，会增加分析和另外一种方法实现登录。1、思路介绍 1.1、直接看代码，内有详细注释说明# FileName : Wm_Cookie_Login.py # Author : Adil # DateTime : 2018/3/20 19:47 # SoftWare : PyCharm from selenium import webdriver import time url = htt...

Python简单的制作图片验证码【图】

-人人可以学Python--这里示范的验证码都是简单的，你也可以把字符扭曲人人可以学Python.pngPython第三方库无比强大，PIL 是python的一个d第三方图片处理模块，我们也可以使用它来生成图片验证码PIL安装命令安装：pip install pillow下载源码安装：复制地址：PIL使用例子：生成图片，并填充文字#!/usr/bin/python#-*-coding:utf-8-*- from PIL import Image, ImageDraw, ImageFont, ImageFilter# 实例一个图片对象240 x 60:width =...

谈谈中文验证码的实现方法实例教程【图】

今天我们要学习的内容是如何利用Python生成一个随机的中文验证码，并将图片保存为.jpeg格式,需要的朋友可以参考下在这之前，你首先得了解Python中的PIL库。PIL是Python Imaging Library的简称，PIL是一个Python处理图片的库，提供了一系列模块和方法，比如：裁切，平移，旋转，改变尺寸等等。在PIL库中，任何一个图像都是用Image对象来表示的，所以要加载一张图片，最简单的形式如下：from PIL import Image image = Image.open("1...

首页 / PYTHON / 使用Python在图像验证码中删除行

使用Python在图像验证码中删除行

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python在图像验证码中删除行】教程文章相关的互联网学习教程文章

python爬虫中图形验证码的处理【代码】【图】

python 生成验证码很简单：random和srting的方法【代码】

利用Python几行代码批量生成验证码【代码】【图】

Python随机生成一个6位的验证码代码分享

利用Python生成随机4位验证码

python第一百一十八天---ajax--图片验证码 + Session【代码】

学习python：实例2.用PIL生成随机验证码【代码】【图】

用Python实现随机验证码【代码】

python下调用pytesseract识别某网站验证码

python selenium3 模拟点击+拖动+保存验证码测试对象 58同城验证码【代码】

python如何识别验证码【图】

selenium+cookie跳过验证码登录实现步奏详解【图】

PythonSeleniumCookie绕过验证码实现登录示例代码_【图】

Python简单的制作图片验证码【图】

谈谈中文验证码的实现方法实例教程【图】

PYTHON - 相关标签

验证码 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程