首页 / 爬虫 / Web爬虫|入门实战之糗事百科（附源码）

Web爬虫|入门实战之糗事百科（附源码）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Web爬虫|入门实战之糗事百科（附源码），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4153字，纯文字阅读大概需要6分钟。

内容图文

coding by real mind writing by genuine heart

技术分享图片

解析

任务背景：https://www.qiushibaike.com/hot/

窥探网页细节：观察每一页URL的变化

第一页

进入第二页

再看看第三页

把这些URL放在一起，观察规律

            1 https://www.qiushibaike.com/hot/page/1/
2 https://www.qiushibaike.com/hot/page/2/
3 https://www.qiushibaike.com/hot/page/3/

从图片可以看出，该URL其他地方不变，只有最后的数字会改变，代表页数

推荐使用浏览器Chrome

插件丰富，原生功能设计对爬虫开发者非常友好

分析网页源代码

通过在原来的页面上点击，选择“检查”，观察规律，这里建议当你用elements定位元素之后，就切换到network查看相应的元素，因为elements里面的网页源代码很可能是经过JS加工过的

通过图片，我们发现：每一个笑话内容，都包含在一个<a...class="contentHerf"

...class="content">里面，当然这里的属性不止一个，这里我们选择contentHerf这个属性

思考工具：什么工具最适合解析此种规律？BeautifulSoup

编码

根据第一步的分析，建立初步的代码

             1
            import
             requests

             2
            from bs4 import BeautifulSoup
 3import time
 4import re
 5 6 headers = {
 7‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘,
 8#User-Agent可以伪装浏览器，键值为浏览器的引擎信息及版本 9‘Host‘:‘www.qiushibaike.com‘,
10‘Cookie‘:‘_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true‘11#Cookie里面保存了你的身份验证信息，可用于cookies反爬12  }
1314for page in range(10):
15   url = f‘https://www.qiushibaike.com/hot/page/{page}/‘#f-string函数，{}中填的是变化的内容，也可以使用format函数16   req = requests.get(url,headers=headers)
17   html = req.text
1819   soup = BeautifulSoup(html,‘lxml‘)
20for joke in soup.select(‘.contentHerf .content span‘):
21if joke.string isnot None:
22       joke_data = f‘笑话一则:{joke.string.strip()}\n\n‘23       with open(‘../txt_file/joke.txt‘,‘ab‘) as f:   #以追加二进制的形式写入到文本文件中，这样就不会替换掉原先的内容24           pattern = re.compile(‘查看全文‘,re.S)
25           jok = re.sub(pattern,‘这里被替换了，嘻嘻!‘,joke_data)
26           f.write(jok.encode(‘utf-8‘))
27           time.sleep(1)  #延迟爬取时间

查看爬取内容

上面这张图片被框起来的地方被我用正则表达式替换掉了，这里原来的内容是“查看全文”

代码优化

             1
            import
             requests

             2
            from bs4 import BeautifulSoup
 3import re
 4import time
 5from requests.exceptions import RequestException
 6 7 8def get_url_html():
 9   headers = {
10‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘,
11‘Host‘:‘www.qiushibaike.com‘,
12‘Cookie‘:‘_ga=GA1.2.2026142502.1558849033; gr_user_id=5d0a35ad-3eb6-4037-9b4d-bbc5e22c9b9f; grwng_uid=9bd612b3-7d0b-4a08-a4e1-1707e33f6995; _qqq_uuid_="2|1:0|10:1617119039|10:_qqq_uuid_|56:NjUxYWRiNDFhZTYxMjk4ZGM3MTgwYjkxMGJjNjViY2ZmZGUyNDdjMw==|fdce75d742741575ef41cd8f540465fb97b5d18891a9abb0849b3a09c530f7ee"; _xsrf=2|6d1ed4a0|7de9818067dac3b8a4e624fdd75fc972|1618129183; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1617119039,1617956477,1618129185; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1618129185; ff2672c245bd193c6261e9ab2cd35865_gr_session_id=fd4b35b4-86d1-4e79-96f4-45bcbcbb6524; ff2672c245bd193c6261e9ab2cd35865_gr_session_id_fd4b35b4-86d1-4e79-96f4-45bcbcbb6524=true‘1314    }
1516try:
17for page in range(2,5):
18       url = f‘https://www.qiushibaike.com/hot/page/{page}/‘19       req = requests.get(url,headers=headers)
20if req innot None:
21return req.text
22else:
23return None
24except RequestException:
25return None
2627def main():
28   html = get_url_html()
29   soup = BeautifulSoup(html,‘lxml‘)
30for joke in soup.select(‘.contentHerf .content span‘):
31if joke.string isnot None:
32       joke_data = f‘笑话一则:{joke.string.strip()}\n\n‘33       with open(‘../txt_file/joke.txt‘,‘ab‘) as f:
34           pattern = re.compile(‘查看全文‘,re.S)
35           jok = re.sub(pattern,‘这里被替换了，嘻嘻!‘,joke_data)
36           f.write(joke.encode(‘utf-8‘))
37383940if__name__ == ‘__main__‘:
41  main()
42   time.sleep(1)

总结

请求库requests及exceptions模块

解析库BeautifulSoup

标准库re

time模块

文本存储

定期分享爬虫实战文章扫码关注个人公众号，带你成为 “爬虫大神” or “爬虫工程师”

—— —— —— —— — END —— —— —— —— ————

　　　　　　　欢迎扫码关注我的公众号

　　　　　　　　　　爬神养成记

　　　技术分享图片

原文：https://www.cnblogs.com/makerchen/p/14716994.html

内容总结

以上是互联网集市为您收集整理的Web爬虫|入门实战之糗事百科（附源码）全部内容，希望文章能够帮你解决Web爬虫|入门实战之糗事百科（附源码）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1108655.html

来源：【匿名】

【上一篇】[python][爬虫]暴漫gif下载【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Web爬虫|入门实战之糗事百科（附源码）】教程文章相关的互联网学习教程文章

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）【图】

相关教程：手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫工具要求：教程中主要使用到了 1、神箭手云爬虫框架 ?这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析【代码】

通过beautifulsoup对json爬取的文件进行元素审查，获取是否含有p标签# -*- coding:utf-8 -*-from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup#通过beautifulsoup解析文档def bs4analysis(html_doc):soup = BeautifulSoup(html_doc,"lxml")if soup.find_all(‘a‘):print soup.a.stringprint soup.a.nextSiblingelif html_doc.find(‘#‘)>=0:print‘有主题‘p=re.split(...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

从零起步系统入门Python爬虫工程师

第1章从零开始系统入门python爬虫工程师-课程导学（提醒：购买后记得加入课程群）课程社群技术专题讨论会第一期于3月30号晚上8点开始9点结束，bobby老师和你不见不散！这样的技术专题讨论会有很多期，大家购买完尽快加群哦。第2章开发环境搭建视频+文档教程本章节主要采用视频+文档的方式详细讲解如何在windows/linux/mac下安装和配置python、pycharm、mysql、navicat和虚拟环境。（学习的过程中遇到问题卡壳，可以及时在问答...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

Web爬虫|入门实战之糗事百科（附源码）【代码】【图】

coding by real mind writing by genuine heart 解析任务背景：https://www.qiushibaike.com/hot/ 窥探网页细节：观察每一页URL的变化第一页进入第二页再看看第三页把这些URL放在一起，观察规律1 https://www.qiushibaike.com/hot/page/1/ 2 https://www.qiushibaike.com/hot/page/2/ 3 https://www.qiushibaike.com/hot/page/3/ 从图片可以看出，该URL其他地方不变，只有最后的数字会改变，代表页数推荐使用浏览器Chrome插...

Python爬虫入门二之爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。2.浏览网页的过程在用...

Python爬虫入门一之综述

现在，我们已经进入到大数据时代，在对数据进行处理分析时，首要的是需要有数据，而作为数据的一个重要来源则来自于网络爬虫，鉴于Python语言的简洁高效，以及对爬虫技术的大力支持，我们选择利用Python作为主要编程语言。Python版本为2.7. 本文主要内容转自：http://cuiqingcai.com/category/technique/python，博主介绍的非常详细，所以在此打算直接拷贝过来了，也希望更多的人可以借此学习进步。首先解释一下什么是爬虫。...

python 网络爬虫入门笔记【代码】

参考：http://www.cnblogs.com/xin-xin/p/4297852.html一、简介　　爬虫即网络爬虫，如果将互联网比做成一张大网，那么蜘蛛就是爬虫。如果它遇到资源，将会抓取下来。二、过程　　在我们浏览网页时，我们经常会看到一些形形色色的页面，其实这个过程就是我们输入url，经DNS解析成对应的ip找到对应的服务器主机，向服务器发出一个请求，服务器经过解析之后将html，js等发回浏览器显示。　　其实爬虫和这个过程差不多，只不过我们在抓...

个人爬虫入门记录20171025

作为一个NBA马刺的粉丝，我想看到比赛的数据，比如比分、场均得分、助攻等等，网易NBA有专门的数据页面来展示这些数据，所以我想通过爬虫的方法，把数据抓取下来，按照我自己的想法去展示。从网上下载了一段代码，试跑了一下，能把网页的源代码下载下来。那我觉得接下来的工作就是文本处理，或者说其实爬虫的主要工作就是文本处理。从源代码中，获取、定位、剥离、存储我所需要的文本。原文：http://8107414.blog.51cto.com/...

Python爬虫简单入门及小技巧【代码】【图】

刚刚申请博客，内心激动万分。于是为了扩充一下分类，随便一个随笔，也为了怕忘记新学的东西由于博主十分怠惰，所以本文并不包含安装python（以及各种模块）和python语法。目标前几天上B站时看到一部很好玩的番剧，名字《笨女孩》，实际上是由同名的搞笑向漫画动画化的。大家都知道动画一般一周一更，很难满足我们的需求，所以我们就来编写一个爬虫，来爬取漫画咯。那么本文的目标就是爬取《初音MIX》这部漫画（因为笨女孩我已经爬...

python3 TensorFlow训练数据集准备下载一些百度图片入门级爬虫示例【代码】【图】

从百度图片下载一些图片当做训练集，好久没写爬虫，生疏了。没有任何反爬，随便抓。网页：动态加载，往下划会出现更多的图片，一次大概30个。先找到保存每一张图片的json，其对应的url：打开调试，清空，然后往下划。然后出现：点击左侧的链接，出现右边的详细信息，对应的就是URL。对这个url做请求即可。以下是代码：# -*- coding: utf-8 -*- # import tensorflow as tf # import os # import numpy as np import reque...

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门【代码】【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装 Linux 基础 CentOS 官网： https://www.centos.org/ 。 CentOS 官方下载链接： https://www.centos.org/download/ 。 Linux 目前在企业中广泛的应用于服务器系统，无论是写好的代码，还是使用的第三方的开源的产品，绝大多数都是部署在 Linux 上面运行的。可能很多同学一提到 Linux 就怂了，黒糊糊的一篇...

python3爬虫之入门基础和正则表达式【图】

前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；用python抓取指定页面：代码如下： import urllib.request url= "http://www.baidu.com" data = urllib.request.urlopen(url).read()# data = data.decode(UTF-8) print(d...

入门 - 相关标签

入门编程入门基础教程

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / Web爬虫|入门实战之糗事百科（附源码）

Web爬虫|入门实战之糗事百科（附源码）

内容导读

内容图文

解析

编码

代码优化

总结

内容总结

内容备注

内容手机端

【Web爬虫|入门实战之糗事百科（附源码）】教程文章相关的互联网学习教程文章

入门 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程