首页 / 正则 / python爬虫训练——正则表达式+BeautifulSoup爬图片

python爬虫训练——正则表达式+BeautifulSoup爬图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬虫训练——正则表达式+BeautifulSoup爬图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1036字，纯文字阅读大概需要2分钟。

内容图文

这次练习爬传送门这贴吧里的美食图片。

技术分享图片

如果通过img标签和class属性的话，用BeautifulSoup能很简单的解决，但是这次用一下正则表达式，我这也是参考了该博主的博文：传送门

所有图片的src地址前面都是相同的，所以根据这个就可以筛选出我们想要的图片了。也就是在匹配时不用class属性的值，而是用正则表达式去匹配src的值。

                 1
                from urllib import request
 2from bs4 import BeautifulSoup
 3import re
 4 5def get_page(url, tot_page):
 6     url_list = []
 7for i in range(1,tot_page):
 8         new_url = re.sub((‘=(.*)‘),‘%s%s‘ %(‘=‘,i), url)
 9        url_list.append(new_url)
10return url_list
111213if__name__ == ‘__main__‘:
14     url = ‘http://tieba.baidu.com/p/4792769205?pn=1‘15     path = ‘D:\python\project\爬虫结果‘16     count = 0
17     url_list = get_page(url, 4)
18for url in url_list:
19print(url)
20         page = request.urlopen(url).read().decode()
21         soup = BeautifulSoup(page, ‘lxml‘)
22         regex = re.compile("http://imgsrc.baidu.com/forum/w%3D580/sign=.+\.jpg")
23         pic_list = soup.findAll(‘img‘, {‘src‘: regex})
24for pic in pic_list:
25             pic = pic[‘src‘]
26             request.urlretrieve(pic, ‘%s/%s.jpg‘ % (path, count))
27             count += 1

我就爬了3页的图片：技术分享图片

技术分享图片

原文：https://www.cnblogs.com/zyb993963526/p/8341019.html

内容总结

以上是互联网集市为您收集整理的python爬虫训练——正则表达式+BeautifulSoup爬图片全部内容，希望文章能够帮你解决python爬虫训练——正则表达式+BeautifulSoup爬图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1164614.html

来源：【匿名】

【上一篇】项目中常用到的正则表达式（收集+共享=进步）【下一篇】正则表达式语法

更多 ►

【python爬虫训练——正则表达式+BeautifulSoup爬图片】教程文章相关的互联网学习教程文章

python爬虫训练——正则表达式+BeautifulSoup爬图片【代码】【图】

这次练习爬传送门这贴吧里的美食图片。如果通过img标签和class属性的话，用BeautifulSoup能很简单的解决，但是这次用一下正则表达式，我这也是参考了该博主的博文：传送门所有图片的src地址前面都是相同的，所以根据这个就可以筛选出我们想要的图片了。也就是在匹配时不用class属性的值，而是用正则表达式去匹配src的值。 1from urllib import request2from bs4 import BeautifulSoup3import re4 5def get_page(url, tot_page):6...

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

1: 利用urllib.request和正则表达式抓取职位信息 1# coding:utf-8 2 3import re4import requests5import urllib.request6 7#利用urllib和re正则提取网页数据 8 9‘‘‘10url = ‘https://search.51job.com/list/020000,000000,0124,01,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fr...

Python爬虫正则表达式常用符号和方法

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。 1、常用符号 . ：匹配任意字符，换行符 \n 除外：匹配前一个字符0次或无限次 ? ：匹...

python3爬虫之入门基础和正则表达式【图】

前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；用python抓取指定页面：代码如下： import urllib.request url= "http://www.baidu.com" data = urllib.request.urlopen(url).read()# data = data.decode(UTF-8) print(d...

python爬虫入门（5）--正则表达式实例教程【图】

要想做爬虫，不可避免的要用到正则表达式，如果是简单的字符串处理，类似于split，substring等等就足够了，可是涉及到比较复杂的匹配，当然是正则的天下，下面这篇文章主要给大家介绍了python爬虫之正则表达式的相关资料，需要的朋友可以参考下。前言正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收...

Python的爬虫包BeautifulSoup中用正则表达式来搜索

Beautiful Soup使用时，一般可以通过指定对应的name和attrs去搜索，特定的名字和属性，以找到所需要的部分的html代码。但是，有时候，会遇到，对于要处理的内容中，其name或attr的值，有多种可能，尤其是符合某一规律，此时，就无法写成固定的值了。所以，就可以借助正则表达式来解决此问题。比如，crifan对应的BeautifulSoup代码如下：h1userSoup = soup.find(name="h1", attrs={"class":"h1user"}); 而如果html是这种：crifan...

玩转python爬虫之正则表达式【图】

面对大量杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达...

零基础写python爬虫之神器正则表达式【图】

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样，是必不可少的神兵利器。一、正则表达式基础 1.1.概念介绍正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语法以及一个独立的...

python爬虫：使用 BeautifulSoup+正则表达式提取数据【代码】【图】

以酷狗音乐的榜单音乐信息为例，我们要获取源代码中的部分数据：查看源代码，最后的一部分数据就是我们要获取的数据：我们可以看到，要获取的数据属于 script 标签中的内容，而且是部分内容，所以这里我们需要先获取指定的script标签中的内容，然后再从其中提取出我们需要的那部分数据，所以在这里我们使用 BeautifulSoup模块和正则表达式首先导入模块from bs4 import BeautifulSoupimport requestsimport re获取网页源代码url...

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

五、批量下载图片 1. 调用库函数【通过链接下载图片有多种方法，本文采用其中一种】 from builtins import len, hasattr, range # 提供对Python的“内置”标识符的直接访问 import re # 正则表达式 import urllib.request, urllib.error # 提供了一系列用于操作URL的功能 import requests # Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比，Requests更加方便，用来下载图片...

python爬虫实战之旅（第二章：数据解析（正则法））【代码】【图】

第三章：数据解析分类：正则法bs4xpath（通用性较强）数据解析原理概述：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储①进行指定标签的定位②标签或者标签对应的属性中存储的数据进行提取（解析）回顾—— 聚焦爬虫：爬取页面中指定的页面内容；而获得相应的数据信息之后的处理我们就称之为数据解析。编码流程指定url发起请求获取响应数据数据解析持久化存储3.1正则法 3.1.1-python正则表达式（regula...

Python爬虫基础教程——正则表达式抓取入门【代码】【图】

大家好！本篇文章主要讲述爬虫一些需要注意的地方、开发环境以及使用正则表达来抓取网站上的信息等。一、简单介绍网络爬虫简单的解释就是从网站上获取相关的信息为已所用的一个自动化处理的方式； 1.1 合法性虽然在2017年就已经开始实施《网络安全法》，但是也没有特别明确爬取公开信息的行为是否违法。小编搜索了一下资料，自己总结了两点：爬取的数据非盈利使用，只要你没有非常大的获取利润、只要你的采集没有涉及到敏感的...

Python爬虫之非常实用的正则表达式-Regular Expression【代码】

正则表达式 Regular Expression 正则表达式 1.引入案例代码演示： import re #regular Expession #需求：判断一个qq号是否是合法的 """ 分析： 1.全数字 2.第一位数字不能为0 3.位数：5~11 """ def checkQQ(str):#不管str是否合法，假设合法result = True#寻找条件推翻假设try:#判断是否是全数字num = int(str)#判断位数if len(str) >= 5 and len(str) <= 11:#判断开头是否为0if str[0] == "0":result = Falseelse:result...

python爬虫-Re正则表达式介绍和实际应用

0、前言我们知道每个语言都有自己的内建函数来对字符串进行处理。通过这些内建函数我们可以对字符串进行一些简单的处理，从而达到数据清洗等目的。在Python中有index()——定位、 find()——查找、split()——分隔、 count()——计数、 replace()——替换等。但这些方法都只是最简单的字符串处理。从我们处理流程来看，能用简单方法来处理的一定不要把问题复杂化，而简单方法无法处理的字符串内容提取则需要正则表达式来处理。 1...

Python3爬虫入门：正则表达式【图】

转自https://www.py.cn/spider/guide/14488.html 本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从HTML里提取想要的信息就非常方便了。1. 实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面就用几个实例来看一下正则表达式的用法。打开开源中国提供的正则表达式测试工具h...

PYTHON爬虫 - 相关标签

python爬虫代码 python爬虫是什么

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...python 正则表达式与JSON-JSON java-检查字符串是否仅包含字母空格和引...java网页爬虫正则表达式

首页 / 正则 / python爬虫训练——正则表达式+BeautifulSoup爬图片

python爬虫训练——正则表达式+BeautifulSoup爬图片

内容导读

内容图文

内容总结

内容备注

内容手机端

【python爬虫训练——正则表达式+BeautifulSoup爬图片】教程文章相关的互联网学习教程文章

python爬虫训练——正则表达式+BeautifulSoup爬图片【代码】【图】

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

Python爬虫正则表达式常用符号和方法

python3爬虫之入门基础和正则表达式【图】

python爬虫入门（5）--正则表达式实例教程【图】

Python的爬虫包BeautifulSoup中用正则表达式来搜索

玩转python爬虫之正则表达式【图】

零基础写python爬虫之神器正则表达式【图】

python爬虫：使用 BeautifulSoup+正则表达式提取数据【代码】【图】

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

python爬虫实战之旅（第二章：数据解析（正则法））【代码】【图】

Python爬虫基础教程——正则表达式抓取入门【代码】【图】

Python爬虫之非常实用的正则表达式-Regular Expression【代码】

python爬虫-Re正则表达式介绍和实际应用

Python3爬虫入门：正则表达式【图】

PYTHON爬虫 - 相关标签

正则表达式 - 相关标签

正则 - 最新教程

正则 - 最热教程