首页 / 爬虫 / python的爬虫技术爬去糗事百科的的方法详解

python的爬虫技术爬去糗事百科的的方法详解

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python的爬虫技术爬去糗事百科的的方法详解，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4149字，纯文字阅读大概需要6分钟。

内容图文

初次学习爬虫技术，在知乎上看了如何爬去糗事百科的段子，于是打算自己也做一个。

实现目标：1，爬取到糗事百科的段子

2，实现每次爬去一个段子，每按一次回车爬取到下一页

技术实现：基于python的实现，利用Requests库，re库，bs4库的BeautifulSoup方法来实现的

主要内容：首先我们要理清一下爬取实现的思路，我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法，第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。

一，首先导入相关的库

import requests
from bs4 import BeautifulSoup
import bs4
import  re

二，首先进行网页信息的获取

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

三，把信息放到r后再进行解析

soup = BeautifulSoup(html,"html.parser")

我们需要的是段子的内容和发布人，通过网页的查看源代码我们知道段子的发布人在：

'p', attrs={'class': 'content'}中

段子的内容在

'p', attrs={'class': 'author clearfix'}中

所以我们通过bs4库的方法来提取这两个标签的具体内容

def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})

然后通过具体到正则表达式来获取信息

for sp in a:
    patten = re.compile(r'<span>(.*?)</span>',re.S)
    Info = re.findall(patten,str(sp))
    lis.append(Info)
    count = count + 1
for mc in ll:
    namePatten = re.compile(r'<h2>(.*?)</h2>', re.S)
    d = re.findall(namePatten, str(mc))
    li.append(d)

我们需要注意的是使用find_all以及re的findall方法返回的都是一个列表，使用正则表达式时我们只是粗略提取并没有把标签中的换行符去掉

接下来我们只需要把2个列表的内容进行组合输出就可以了

def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)

然后我做一个输入控制函数，输入Q返回错误，退出，输入回车返回正确，进行下一页段子的加载

def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True

我们通过主函数来实现所输入的控制，如果控制函数返回的是错误就不执行输出，如果返回的是正确就继续输出。我们通过一个for循环来进行加载下一页。

def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break

这里我们需要注意到是每一次for循环都会刷新一次lis【】和li【】，这样每次都可以正确输出该网页的段子内容

一下为源代码：

import requests
from bs4 import BeautifulSoup
import bs4
import  re
def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})
        for sp in a:
            patten = re.compile(r'<span>(.*?)</span>',re.S)
            Info = re.findall(patten,str(sp))
            lis.append(Info)
            count = count + 1
        for mc in ll:
            namePatten = re.compile(r'<h2>(.*?)</h2>', re.S)
            d = re.findall(namePatten, str(mc))
            li.append(d)
    except:
        return ""
    return count
def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)
def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True
def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break
main()

第一次做还是有很多可以优化的地方希望大家可以指出来。

以上就是python的爬虫技术爬去糗事百科的的方法详解的详细内容，更多请关注Gxl网其它相关文章！

内容总结

以上是互联网集市为您收集整理的python的爬虫技术爬去糗事百科的的方法详解全部内容，希望文章能够帮你解决python的爬虫技术爬去糗事百科的的方法详解所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/430771.html

来源：【匿名】

【上一篇】详解Python爬虫使用代理proxy抓取网页方法【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python的爬虫技术爬去糗事百科的的方法详解】教程文章相关的互联网学习教程文章

爬虫超时解决的方法

做网络爬虫怕的就是超时，当恰恰出现最多的就是超时。那该怎么办呢！1，HttpClient默认请求为3次，你能够改动成N次，建议依据实际情况改动2。设置get方法请求超时为 5 秒GetMethod getMethod=new GetMethod(url); getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 3。设置 Http 连接超时为5秒HttpClient httpClient=new HttpClient(); httpClient.getHttpConnectionManager().getParams().setConne...

Python网络爬虫神器PyQuery的使用方法【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

PHP判断是不是爬虫的方法

PHP判断是不是爬虫的方法这个一般用于防止爬虫和 seo优化(因为爬虫都是按照第一次打开显示的页面有些ajax 等需要点击才能显示的就爬不到啦)<pre><?php// 判断是否搜索引擎机器人访问function isRobot() { $agent= strtolower(isset($_SERVER[‘HTTP_USER_AGENT‘])? $_SERVER[‘HTTP_USER_AGENT‘] : ‘‘); if(!empty($agent)){ $spiderSite= array( "TencentTraveler", "Baiduspider+", ...

常见的反爬虫和应对方法

0x01 常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

“最简单”的爬虫开发方法【代码】【图】

背景：　　本人接触python爬虫也有一段时间了，期间也有许多小伙伴和我探讨python爬虫怎么学习，因此写下这篇随笔，算不上教学，只是谈谈自己的想法。　　实现爬虫的方法有很多，我选取了个人觉得最容易理解、实现的方法。本篇随笔涉及的爬虫知识不多，难度主要在安装相应的库上面！一、开发环境：　　python3、xpath+Selenium二、安装如果你已经有了pip管理工具了：（其他安装方法自行百度）1 pip install selenium1 pip install ...

爬虫(五)：生产者消费者方法【代码】【图】

1.不使用锁的话，可能会产生线程的竞争：当共享一个对象（变量或者一个方法）加锁的操作在threading模块中，定义两种类型的琐：threading.Lock和threading.RLock。它们之间有一点细微的区别，通过比较下面两段代码来说明：import threading lock = threading.Lock() #Lock对象 lock.acquire() lock.acquire() #产生了死琐。 lock.release() lock.release() import threading rLock = threading.RLock() #RLock对象 rLo...

Python爬虫DNS如何解析缓存的方法详解

这篇文章主要介绍了Python爬虫DNS解析缓存方法,结合具体实例形式分析了Python使用socket模块解析DNS缓存的相关操作技巧与注意事项,需要的朋友可以参考下本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考，具体如下：前言：这是Python爬虫中DNS解析缓存模块中的核心代码，是去年的代码了，现在放出来有兴趣的可以看一下。一般一个域名的DNS解析时间在10~60毫秒之间，这看起来是微不足道，但是对于大型一点的爬虫而言...

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例讲解

这篇文章主要介绍了PHPCrawl爬虫库实现抓取酷狗歌单的方法,涉及PHPCrawl爬虫库的使用及正则匹配相关操作技巧,需要的朋友可以参考下本文实例讲述了PHPCrawl爬虫库实现抓取酷狗歌单的方法。分享给大家供大家参考，具体如下：本人看了网络爬虫相关的视频后，手痒痒，想爬点什么。最近Facebook上表情包大战很激烈，就想着把所有表情包都爬下来，却一时没有找到合适的VPN，因此把酷狗最近一月精选歌曲和简单介绍抓取到本地。代码写得有点...

使用phpspider爬虫的使用方法【图】

本文主要和大家分享使用phpspider爬虫的使用方法，使用python爬虫固然很方便，但是发现php在这方便也不弱；使用框架爬虫真的要高效许多。1,先看下phpspider的结构2，举例子：比如我爬取南昌新闻网的一个分类这个注释要加上，不然报错，可以看看源码，源码里面有很多方法；3,然后是配置下爬虫:4,然后将配置文件放入框架类文件，实例化：这里的 on_scan_page 是爬取的入口url，这些URL跟我配置的 content_url_regxes 正则规则匹配，所...

PHP实现简单爬虫的方法，php实现爬虫_PHP教程

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @pa...

PHP实现简单爬虫的方法_PHP

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下：<?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return a...

PHP实现简单爬虫的方法_php技巧

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return ...

PHP实现简单爬虫的方法

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return ...

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例

本文实例讲述了PHPCrawl爬虫库实现抓取酷狗歌单的方法。分享给大家供大家参考，具体如下：本人看了网络爬虫相关的视频后，手痒痒，想爬点什么。最近Facebook上表情包大战很激烈，就想着把所有表情包都爬下来，却一时没有找到合适的VPN，因此把酷狗最近一月精选歌曲和简单介绍抓取到本地。代码写得有点乱，自己不是很满意，并不想放上来丢人现眼。不过转念一想，这好歹是自己第一次爬虫，于是...就有了如下不堪入目的代码~~~（由于...

首页 / 爬虫 / python的爬虫技术爬去糗事百科的的方法详解

python的爬虫技术爬去糗事百科的的方法详解

内容导读

内容图文

内容总结

内容备注

内容手机端

【python的爬虫技术爬去糗事百科的的方法详解】教程文章相关的互联网学习教程文章

爬虫超时解决的方法

Python网络爬虫神器PyQuery的使用方法【代码】

PHP判断是不是爬虫的方法

常见的反爬虫和应对方法

一种基于迭代与分类识别方法的入门级Python爬虫【图】

“最简单”的爬虫开发方法【代码】【图】

爬虫(五)：生产者消费者方法【代码】【图】

Python爬虫DNS如何解析缓存的方法详解

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例讲解

使用phpspider爬虫的使用方法【图】

PHP实现简单爬虫的方法，php实现爬虫_PHP教程

PHP实现简单爬虫的方法_PHP

PHP实现简单爬虫的方法_php技巧

PHP实现简单爬虫的方法

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例

PYTHON - 相关标签

爬虫 - 相关标签

技术 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程