首页 / PYTHON / 爬虫小试--用python中requests和urllib模块爬取图片

爬虫小试--用python中requests和urllib模块爬取图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫小试--用python中requests和urllib模块爬取图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1235字，纯文字阅读大概需要2分钟。

内容图文

今天突发奇想小试爬虫,获取一下某素材站一些图片

实现步骤如下:

            import
             re

            import
             requests

            from urllib import request
import os

# 1.首先要检查数据是否是动态加载出来的
# 2.获取页面源码数据ifnot os.path.exists(‘tupian‘):
    os.mkdir(‘tupian‘)
headers = {
   "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
url = "http://sc.chinaz.com/tupian/bingxueshijie.html"
page = requests.get(url=url, headers=headers) 
page.encoding=‘utf8‘# 先解决乱码问题
page_text=page.text  # .text拿到html文本
ex = ‘<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>‘  
img_url_list = re.findall(ex, page_text, re.S)  # 正则匹配for img_url in img_url_list:
    img_path = ‘tupian/‘ + img_url.split("/")[-1]  # 本地存放的文件路径    
    request.urlretrieve(url=img_url, filename=img_path)
    print(img_path , "获取成功")

结果:

tupian/bpic9987_s.jpg 获取成功
tupian/bpic9944_s.jpg 获取成功
tupian/zzpic15470_s.jpg 获取成功
tupian/hpic428_s.jpg 获取成功
... 
# 还有一大推就不罗列了

期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html

解决办法就是先发请求获得真正请求得到的html文本, 即page_text=page.text .text拿到html文本, 参照真正请求获得的文本写正则, 如此即可

还有一个小坑就是乱码问题, page.encoding=‘utf8‘ 即可解决

原文：https://www.cnblogs.com/babyjoy/p/10235912.html

内容总结

以上是互联网集市为您收集整理的爬虫小试--用python中requests和urllib模块爬取图片全部内容，希望文章能够帮你解决爬虫小试--用python中requests和urllib模块爬取图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1223291.html

来源：【匿名】

更多 ►

【爬虫小试--用python中requests和urllib模块爬取图片】教程文章相关的互联网学习教程文章

爬虫小试--用python中requests和urllib模块爬取图片【代码】

今天突发奇想小试爬虫,获取一下某素材站一些图片实现步骤如下:import re import requests from urllib import request import os# 1.首先要检查数据是否是动态加载出来的 # 2.获取页面源码数据ifnot os.path.exists(‘tupian‘):os.mkdir(‘tupian‘) headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc...

python利用request发送post请求【代码】

1. post请求方式编码有3种：application/x-www-form-urlencoded #最常见的post提交数据的方式，以form表单形式提交数据 application/json #以json格式提交数据 multipart/form-data #一般使用来上传文件（较少用） 2.　post一贯的用法是：requests.post(url,data), 具体我们使用不同的编码方式来有所不同：　1）、传统表单post请求（x-www-form-urlencoded）import requests,jsonurl = ‘http://httpbin.org/post‘ data =...

Python爬虫：认识urllib/urllib2以及requests【代码】

首先说明一下我的爬虫环境是基于py2.x的，为什么用这个版本呢，因为py2.x的版本支持的多，而且一般会使用py2.x环境，基本在py3.x也没有太大问题，好了，进入正题！ urllib 与 urllib2urllib与urllib2是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. 构建一个请求与响应模型import urllib2strUrl = "http://www.baidu.com" response = urllib2.urlopen(strUrl) print response.read()得到： <div ><b>网页</b><a href...

python requests库学习【代码】

1.先bia一个国内镜像吧　　用法很简单 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests2.大二的时候受到小甲鱼的蛊惑，拿urllib爬美女写真图。。。。。。真的是超级麻烦（其实也没多麻烦）3.前段时间听说有个很好用的包‘requests’，最近开学学计算机网络和互联网程序设计，于是就想起了这个，准备探索一下先大概看了一下，真的很方便，因为之前老遇到转码的问题。。。一窍不通。反正就是bytes（）、decode（...

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

python3+requests接口自动化测试框架

最近学习了接口测试，所以来总结一下，免得时间长了忘记通常做接口测试大家使用的都是postman和jmeter等测试工具手动进行接口测试，这样可能比较费时耗力，所以，我们可以从使用工具做重复的事情转变为写代码让代码自动去做这些重复的事情（现学现卖，其中有很多不足，希望大神可以指点指点）1，首先我们梳理一下正常的使用工具进行接口测试都有那些步骤；大家第一反应可能是：确定测试接口的工具 —> 配置需要的接口参数 —> 进行...

windows下安装python requests【图】

1.先找到自己python安装目录下的pip2.在自己的电脑里打开cmd窗口。先点击开始栏，在搜索栏输入cmd，按Enter，打开cmd窗口。 3.在cmd里将目录切换到你的pip所在路径。比如我的在C:\Python34\Scripts这个目录下，先切换到d盘，再进入这个路径。输入：cd C:\Python34\Scripts 4.输入命令pip install requests 执行安装，等待他安装完成就可以了。下图：我之前已经安装成功了5.安装完之后，就可以使用了原文：https://www.cnblogs.c...

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）【代码】【图】

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）一、requests库的基本使用requests是python语言编写的简单易用的HTTP库，使用起来比urllib更加简洁方便。 requests是第三方库，使用前需要通过pip安装。pip install requests 1.基本用法：import requests#以百度首页为例 response = requests.get(‘http://www.baidu.com‘)#response对象的属性print(response.status_code) # 打印状态码print(response.url...

接口_requests_基于python【代码】

HTTP request python官方文档：http://cn.python-requests.org/zh_CN/latest/基于环境，需要安装requests 模块，安装方法 pip install requests想学习requests，就通过help吧import requests help(requests)返回结果如下：C:\Python27\python.exe E:/test/interface/g_3.py Help on package requests:NAMErequestsFILEc:\python27\lib\site-packages\requests\__init__.pyDESCRIPTIONRequests HTTP Library~~~~~~~~~~~~~~~~~~~~~Re...

python3 + requests + pytest + allure 登录禅道12.3.3-提交bug-编辑bug-确认bug-解决bug-关闭bug【代码】【图】

前言最近学习完了requests、pytest，实践出真知。下面以禅道为例。docker方式搭建禅道一、Pycharm中创建项目结构1.新建一个工程，工程名称自己定义，如：zentao2.在工程的根目录下新建一个conftest.py（测试用例的一些fixture配置）和pytest.ini（改变pytest的运行方式）3.在工程下创建以下package包：--case：这个包放test开头的测试用例，也可以放一些非test开头的封装接口方法--common：这个包放一些公共的方法，如：读取excel文...

python requests库使用【代码】

迫不及待了吗？本页内容为如何入门 Requests 提供了很好的指引。其假设你已经安装了 Requests。如果还没有，去安装一节看看吧。首先，确认一下：Requests 已安装Requests 是最新的让我们从一些简单的示例开始吧。发送请求使用 Requests 发送网络请求非常简单。一开始要导入 Requests 模块：>>> importrequests然后，尝试获取某个网页。本例子中，我们来获取 Github 的公共时间线：>>> r=requests.get(‘https://github.com/timelin...

Python——深入理解urllib、urllib2及requests（requests不建议使用？）【代码】

深入理解urllib、urllib2及requests650) this.width=650;" src="http://codefrom.oss-cn-hangzhou.aliyuncs.com/www/2015/06-03/00380d0fbed52c2b5d697152ed3922d6" /> python Python 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年，Python 源代码同样遵循 GPL(GNU General Public License)协议[1] 。Python语法简洁而清晰，具有丰富和强大的...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

python+unittest+requests实现接口自动化【代码】【图】

前言：Requests简介Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写，真正的为人类着想。Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能，但是它的 API 有点落后了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。总之，大家建议大家用Requests吧。Requests的官方文档：http://cn.python-requests.org/zh_CN/latest/通过下面方法安...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

首页 / PYTHON / 爬虫小试--用python中requests和urllib模块爬取图片

爬虫小试--用python中requests和urllib模块爬取图片

内容导读

内容图文

内容总结

内容备注

内容手机端

【爬虫小试--用python中requests和urllib模块爬取图片】教程文章相关的互联网学习教程文章

REQUEST - 相关标签

模块 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程