python 网络爬虫（二）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 网络爬虫（二），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2341字，纯文字阅读大概需要4分钟。

内容图文

一、编写第一个网络爬虫

　　为了抓取网站，我们需要下载含有感兴趣的网页，该过程一般被称为爬取（crawling）。爬取一个网站有多种方法，而选择哪种方法更加合适，则取决于目标网站的结构。

　　首先探讨如何安全的下载网页，让后介绍3中爬去网站的常见方法：

　　　　-- 爬取网站地图；

　　　　-- 遍历每个网页的数据库 ID；

　　　　-- 跟踪网页链接；

1、下载网页

　　要想爬取网页，我们首先将其下载下来。下面的实例脚本使用 Python 的 urllib2 模块下载 URL：

import urllib2
def download(url):
    return urllib2.urlopen(url).read()

　　当传入 URL 参数时，该函数将会下载网页并返回其 HTML 。不过，这个代码片段存在一个问题，即当下载网页时，饿哦们可能会遇到一些无法控制的错误，比如请求的页面可能不存在，此时，urllib2 会抛出异常，然后退出脚本。安全起见，下面给出一个更健壮的版本，可以捕获这些异常：

import urllib2

def download(url):
    print('Downloading:', url)
    try:
        html = urllib2.urlopen(url).read()
    except urllib2.URLError as e:
        print('Download error:', e.reason)
        html = None
        
    return html

现在，当出现下载错误是，该函数能够捕获异常，然后返回 None。

当 download 函数遇到 5xx 错误码时，将会递归调用函数自身进行重试。

import urllib2

def download(url, num_retries = 2):
    print('Downloading:', url)
    try:
        html = urllib2.urlopen(url).read()
    except urllib2.URLError as e:
        print('Download error:', e.reason)
        html = None
        if num_retries > 0:
            if hasattr(e, 'code') and 500 <= e.code < 00:
                return download(url, num_retries - 1)

此外，该函数还增加了一个参数，用于设定重试下载的次数，其默认值为两次。

2、设置用户代理

　　默认情况下，urllib2 使用 Python-urllib/2.7 作为用户下载网页内容，其中 2.7 是 python的版本号，如果能使用可辨别的用户代理则更好。这样可以避免爬虫遇到的一些问题。此外，也许是因为曾经经历过质量不佳的Python网络爬虫造成的服务器过载，一些网站还会封禁这个默认的用户代理。

　　因此，为了下载更可考，我们需要控制用户代理的设定。下面代码对 download 函数进行了修改。设定了一个默认的用户代理 “wswp”(即 We Scraping with Python 的手字母缩写)

import urllib2

def download(url, user_agent = 'wswp', num_retries = 2):
    print('Downloading :', url)
    headers = {'User-agent':user_agent}
    request = urllib2.Request(url, headers = headers)
    try:
        html = urllib2.urlopen(request).read()
    except urllib2.URLError as e:
        print('Download error:', e.reason)
        html = None
        
        if num_retries > 0:
            if hasattr(e, 'code') and 500 <= e.code < 600:
                return download(url, user_agent, num_retries - 1)
      
    return html

现在我们拥有一个灵活的下载函数，该函数能够捕获异常，重试下载并设置了用户代理。

内容总结

以上是互联网集市为您收集整理的python 网络爬虫（二）全部内容，希望文章能够帮你解决python 网络爬虫（二）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/827626.html

来源：【匿名】

【上一篇】Python爬虫：爬取网页图片【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python 网络爬虫（二）】教程文章相关的互联网学习教程文章

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

python网络爬虫笔记（九）【图】

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址，主演使用HTTP协议，他的参数以ca开头的都是跟身份验证有关，不常使用，data参数是post方法提交URL时使用，常用的是timeout参数，url参数是提交网络地址全称，前端是协议...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

系统学习下python网络爬虫笔记一【代码】

系统学习下python网络爬虫的知识1、爬虫的定义Web Spider，把互联网定义为一个蜘蛛网，网络蜘蛛通过网页的链接地址来寻找网页。具体过程：从网站的某一个网页（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到所有的网页都抓取完成为止。其实，网络爬虫就是一个爬行程序，一个抓取网页的程序。我们如何才能找到自己想要的网页和去掉网页中其他不相关的...

[Python]网络爬虫：北邮图书馆排行榜【图】

最近对爬虫比较感兴趣，就研究了一下。推荐一个python爬虫博客http://blog.csdn.net/pleasecallmewhy/article/details/9305229点击打开链接。跟着博主的博客学了下来，自己动手编写了一个爬北邮图书馆排行榜的demo。#!/usr/bin/env python # -*- coding: utf-8 -*-#--------------------------------------- # 程序：bupt图书馆爬虫-排行榜 # 版本：0.1 # 作者：zhangxuan # 日期：2015-04-15 # 语言：Python 2.7 # 操...

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

转自：http://blog.csdn.net/pleasecallmewhy/article/details/8934726百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后u...

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第一部分：7000本电子书下载网络爬虫完整案例演示。配套视频课程详见[51CTO学院]章节目录：（1）页面分析1：列表页-图书清单（2）页面分析2：详情页-下载地址（3）程序演示1：导出详情页（4）程序演示2：批量图书下载（5）执行结果1：批量导出下载地址文件（7）执行结果2：批量图书下载二、正文3.1 列表页：图书清单页3.2 详情页：下载地址页3.3.1 程序演示-导出详情页链接3.3.2...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态（上）和利用Python网络爬虫爬取微信朋友圈动态——附代码（下），并且对抓取到的数据进行了Python词云和wordart可视化，感兴趣的伙伴可以戳这篇文章：利用Python词云和wordart可视化工具对朋友圈数据进行可视化。今天我们继续focus on微信，不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况。代码实现蛮简单的，具体的教程如下...

python网络爬虫作业【代码】【图】

第一部分：请分析作业页面，爬取已提交作业信息，并生成已提交作业名单，保存为英文逗号分隔的csv文件。文件名为：hwlist.csv 。文件内容范例如下形式：学号,姓名,作业标题,作业提交时间,作业URL20194010101,张三,羊车门作业,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html20194010102,李四,羊车门,2018-11-14 9:38:27.03,http://www.cnblogs.com/sninius/p/87654321.html *注1：如制作定期爬去作业爬虫...

第1天｜12天搞定Python网络爬虫，吃里爬外？【图】

人力资源部漂亮的小MM，跑来问我：老陈，数据分析和爬虫究竟是关系呀？说实在的，我真不想理她，因为我一直认为这个跟她的工作关系不大，可一想到她负责我负责部门的招聘工作，我只好勉为其难地跟她说：数据分析，吃里，爬虫，爬外，合在一起就是吃里爬外。大数据时代，要想进行数据分析，首先要有数据来源，单靠公司那几条毛毛雨(数据)，分析个寂寞都不够，唯有通过学习爬虫，从外部(网站)爬取一些相关、有用的数据，才能让老板进...

Python网络爬虫【代码】

爬虫简介requests模块数据解析三大方法seleniumscrapy框架爬虫简介- 什么是爬虫：　　爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。 - 爬虫的分类：""" - 通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为...