首页 / 爬虫 / 『网络爬虫』自从学会了python，斗图就没怕过谁！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了『网络爬虫』自从学会了python，斗图就没怕过谁！！，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3701字，纯文字阅读大概需要6分钟。

内容图文

大家好，我是启航。

今天我们介绍一个简单爬虫程序，关于斗图的！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

斗图嘛

只想说，从此以后，斗图就不用怕谁了！！

来，开干！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

干

那我们就按照顺序来吧，先导入需要用到的库：

import?requests
import?re
import?os

等等，你这个导入库没在正文目录下面啊！

没事，接下来我们开始表演就行！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

请开始你的表演

一. 找到页面url规律

这里我们要爬取的网站是斗图啦：https://www.doutula.com/。

打开网站
我们先F12打开开发者模式
在右侧搜索框输入关键词
点击搜索
在搜索结果页面下滑，找到查看更多
点击查看更多（这个时候请注意浏览器地址栏url变化）
于是，你发现了它的规律

#?页面变化项是?keyword?和?page，分别对应的搜索关键词和搜索结果页码
url?=?f'https://www.doutula.com/search?type=photo&more=1&keyword={keyword}&page={page}'

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

url

是不是很开心？！

开心你就蹦一蹦~~

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

开心

二. 请求搜索结果数据

我们还是直接用requests库进行数据请求即可，这里需要注意的是需要加上带浏览器的请求头，否则会收到404的错误码！

由于这里我用到re正则表达式进行数据解析，所以，可以先将请求的文本数据中非字符部分去掉，具体看下面代码就好啦。

headers?=?{
????"Accept-Encoding":?"Gzip",??#?使用gzip压缩传输数据让访问更快
????"User-Agent":?"Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64;?rv:83.0)?Gecko/20100101?Firefox/83.0",
????}

#?搜索页面数据
def?get_text(keyword,page):
????url?=?f'https://www.doutula.com/search?type=photo&more=1&keyword={keyword}&page={page}'
????#?请求数据
????resp?=?requests.get(url,headers=headers)
????#?去掉非字符
????text?=?re.sub('\s','',resp.text)
????
????return?text

是不是觉得很简单，很不错！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

不错哟

三. 解析并下载表情包

我们直接在页面开发者模式下，element元素找到某个表情包，然后在右侧可以看到该表情包所在节点区域，找啊找啊，就找到了表情包的图片地址。

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

页面

找到了表情包图片地址后，我们直接用正则表达式解析出他们进行处理就好啦。

为了处理的准确性，这里可以先正则解析出页面中全部表情所在区域，然后再在这个区域里解析每个表情包的图片地址，接着遍历全部的表情包地址进行图片下载。

需要注意的是，我这边想将不同关键词搜索结果下的表情包存在不同关键词文件夹里，所以用到了os.mkdir创建关键词文件夹的方式，当然在创建前也需要现判断是否已经存在os.path.exists。

直接看代码吧！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

???

#?表情包下载
def?down_meme(keyword):
????#?由于表情较多，这里只取10页（也有接近700左右）
????pages?=?10
????num?=?0
????for?page?in?range(1,pages+1):
????????text?=?get_text(keyword,page)
????????#?表情包区域
????????search_result?=?re.findall(r'divclass="search-resultlist-group-item"(.*?)class="text-center"',text)[0]
????????#?表情包下载地址
????????meme_urls?=?re.findall(r'"data-original="(.*?)"',search_result)
????????
????????
????????#?下载每页的表情包
????????for?meme_url?in?meme_urls:
????????????num?+=?1
????????????#?表情包文件名
????????????meme_name?=?re.findall(r'http://img.doutula.com/.*/(.*)',meme_url)[0]
????????????meme_img?=?requests.get(meme_url)
????????????#?表情包内容?bytes?格式
????????????meme?=?meme_img.content
????????????#?写入本地（判断关键字文件夹是不是存在，不存在则创建一个）
????????????if?not?os.path.exists(f'./{keyword}'):
????????????????os.mkdir(f'./{keyword}')
????????????????
????????????with?open(f'./{keyword}/{meme_name}','wb')?as?f:
????????????????f.write(meme)
????????????????
????????????print(f'{num}?个?{keyword}?表情包已经下载...')

是不是很简单，很牛逼？？

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

牛逼？

四.代码跑起来，表情包斗起来！

最后，我们就可以进行表情包的自定义下载啦！

记得加上以下代码：

if?__name__?==?"__main__":
????#?keyword?=?'呵呵'
????keyword?=??input('请输入你想查询的表情包：')
????down_meme(keyword)

代码运行起来，666表情包刷起来！！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

表情包下载

五.斗图吧

如果你在pc端微信，则直接将下载的表情包拖进对话框就行；如果你是手机的话，将文件导入手机，然后以照片形式发送亦可！

请开启你的斗图模式！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

斗图

以上就是本次全部内容，简单粗暴有没有！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！ - 文章图片

简单粗暴

还等什么，斗图去吧！

温馨提示：以后我们的所有演示文件及代码都只需要申请Q群：705933274 免费获取

内容总结

以上是互联网集市为您收集整理的『网络爬虫』自从学会了python，斗图就没怕过谁！！全部内容，希望文章能够帮你解决『网络爬虫』自从学会了python，斗图就没怕过谁！！所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/588669.html

来源：【匿名】

【上一篇】python_chapter1_爬虫(爬虫概述、一个简单的小爬虫、web请求、HTTP协议、requests入门)【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【『网络爬虫』自从学会了python，斗图就没怕过谁！！】教程文章相关的互联网学习教程文章

Python网络爬虫神器PyQuery的使用方法【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

网络爬虫urllib2 tornado【代码】

百度不支持用tornado请求，可以用美团开放API 测试。 1import tornado.httpclient2 3def fetch(url):4 http_header={‘User-Agent‘:‘Chrome‘}5 http_request=tornado.httpclient.HTTPRequest(url=url,method=‘GET‘,headers=http_header,connect_timeout=200, request_timeout=600)6 7 http_client=tornado.httpclient.HTTPClient()8 9 http_response=http_client.fetch(http_request) 1011print http_response.code 1213 all_...

使用selenium实现简单网络爬虫抓取MM图片【代码】

撸主听说有个网站叫他趣，里面有个社区，其中有一项叫他趣girl，撸主点进去看了下，还真不错啊，图文并茂，宅男们自己去看看就知道啦~　　接下来当然就是爬取这些妹子的图片啦，不仅仅是图片，撸主发现里面的对话也很有意思，于是把对话也一并抓取下来好了。　　那么问题来了，用什么工具呢？在之前的练习中已经用过urllib2，正则表达式匹配实在麻烦，这次来点稍微高级的，试试selenium；　　selenium是什么？其实它是一个web自动化...

python网络爬虫笔记（九）【图】

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址，主演使用HTTP协议，他的参数以ca开头的都是跟身份验证有关，不常使用，data参数是post方法提交URL时使用，常用的是timeout参数，url参数是提交网络地址全称，前端是协议...

网络爬虫（三）【代码】

在上一节中我们知道了URLopen()可以实现最基本的爬虫请求：但是几个参数根本不足以构建完整的请求。假如需要在请求中假如Header等信息，就可以尝试利用更加强大的Request类来进行构建。下面的例子是一个用法：# -*- coding:UTF-8 -*-__autor__ = ‘zhouli‘__date__ = ‘2018/6/17 12:02‘import urllib.request request = urllib.request.Request(‘https://python.org‘) response = urllib.request.urlopen(request) print(resp...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

初识网络爬虫【图】

我们可以把互联网比作一张大网，而爬虫（网络爬虫）便是网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这里就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被爬行下来。一、爬虫概述简单来说，爬虫就是获取网页并提取和...

系统学习下python网络爬虫笔记一【代码】

系统学习下python网络爬虫的知识1、爬虫的定义Web Spider，把互联网定义为一个蜘蛛网，网络蜘蛛通过网页的链接地址来寻找网页。具体过程：从网站的某一个网页（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到所有的网页都抓取完成为止。其实，网络爬虫就是一个爬行程序，一个抓取网页的程序。我们如何才能找到自己想要的网页和去掉网页中其他不相关的...

[Python]网络爬虫：北邮图书馆排行榜【图】

最近对爬虫比较感兴趣，就研究了一下。推荐一个python爬虫博客http://blog.csdn.net/pleasecallmewhy/article/details/9305229点击打开链接。跟着博主的博客学了下来，自己动手编写了一个爬北邮图书馆排行榜的demo。#!/usr/bin/env python # -*- coding: utf-8 -*-#--------------------------------------- # 程序：bupt图书馆爬虫-排行榜 # 版本：0.1 # 作者：zhangxuan # 日期：2015-04-15 # 语言：Python 2.7 # 操...

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

转自：http://blog.csdn.net/pleasecallmewhy/article/details/8934726百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后u...

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器【图】

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器广东职业技术学院欧浩源 2017-10-211、引言目前，除了官方文档之外，市面上及网络详细介绍BeautifulSoup使用的技术书籍和博客软文并不多，而在这仅有的资料中介绍CSS选择器的少之又少。在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。虽然资料不多，但官方文档却十分详细，然而美中不足的是需要一定的基础才能看懂，而且没有小而精的演示实例。不过，在本...

网络爬虫（二）【代码】【图】

上一节保存心急了，附上Linux的安装；docker官方版安装：curl -sSL http://get.docker.com/ | sh阿里云版安装：curl -sSL http://acs-public-mirror.oss-cn-hangzhou.aliyuncs.com/docker-engine/internet | sh -DaoCloud的安装脚本：curl -sSL http://get.daocloud.io/docker.com/ | sh三选一了解爬虫基础：HTTP和HTTPSHTTP是叫超文本传输协议，目前使用http1.1版本。HTTPS是以安全为目标的HTTP通道，简单来讲就是HTTP的安全版本。...

网络爬虫1【代码】

网络爬虫，web crawler（网页蜘蛛，网络机器人,网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序最简单的网络爬虫：读取页面中所有的邮箱import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.regex.Matcher; import java.util.regex.Pattern;publicclass WebCrawl...

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第一部分：7000本电子书下载网络爬虫完整案例演示。配套视频课程详见[51CTO学院]章节目录：（1）页面分析1：列表页-图书清单（2）页面分析2：详情页-下载地址（3）程序演示1：导出详情页（4）程序演示2：批量图书下载（5）执行结果1：批量导出下载地址文件（7）执行结果2：批量图书下载二、正文3.1 列表页：图书清单页3.2 详情页：下载地址页3.3.1 程序演示-导出详情页链接3.3.2...

网络爬虫问题【代码】【图】

请分析作业页面，爬取已提交作业信息，并生成已提交作业名单，保存为英文逗号分隔的csv文件。文件名为：hwlist.csv 。文件内容范例如下形式：学号,姓名,作业标题,作业提交时间,作业URL20194010101,张三,羊车门作业,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html20194010102,李四,羊车门,2018-11-14 9:38:27.03,http://www.cnblogs.com/sninius/p/87654321.html *注1：如制作定期爬去作业爬虫，请注意爬...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 『网络爬虫』自从学会了python，斗图就没怕过谁！！

『网络爬虫』自从学会了python，斗图就没怕过谁！！

内容导读

内容图文

一. 找到页面url规律

二. 请求搜索结果数据

三. 解析并下载表情包

四.代码跑起来，表情包斗起来！

五.斗图吧

内容总结

内容备注

内容手机端

【『网络爬虫』自从学会了python，斗图就没怕过谁！！】教程文章相关的互联网学习教程文章

Python网络爬虫神器PyQuery的使用方法【代码】

网络爬虫urllib2 tornado【代码】

使用selenium实现简单网络爬虫抓取MM图片【代码】

python网络爬虫笔记（九）【图】

网络爬虫（三）【代码】

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

初识网络爬虫【图】

系统学习下python网络爬虫笔记一【代码】

[Python]网络爬虫：北邮图书馆排行榜【图】

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

【网络爬虫入门04】彻底掌握BeautifulSoup的CSS选择器【图】

网络爬虫（二）【代码】【图】

网络爬虫1【代码】

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

网络爬虫问题【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

网络 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程