首页 / 爬虫 / 【Python3网络爬虫开发实战】3.1.2-处理异常

【Python3网络爬虫开发实战】3.1.2-处理异常

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【Python3网络爬虫开发实战】3.1.2-处理异常，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2971字，纯文字阅读大概需要5分钟。

内容图文

【摘要】前一节我们了解了请求的发送过程，但是在网络不好的情况下，如果出现了异常，该怎么办呢？这时如果不处理这些异常，程序很可能因报错而终止运行，所以异常处理还是十分有必要的。

urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异常。

1. URLError

URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块生的异常都可以通过捕获这个类来处理。

它具有一个属性reason，即返回错误的原因。

下面用一个实例来看一下：

from urllib import request, error
try:
    response = request.urlopen('http://cuiqingcai.com/index.htm')
except error.URLError as e:
    print(e.reason)

我们打开一个不存在的页面，照理来说应该会报错，但是这时我们捕获了URLError这个异常，运行结果如下：

Not Found

程序没有直接报错，而是输出了如上内容，这样通过如上操作，我们就可以避免程序异常终止，同时异常得到了有效处理。

2. HTTPError

它是URLError的子类，专门用来处理HTTP请求错误，比如认证请求失败等。它有如下3个属性。

code：返回HTTP状态码，比如404表示网页不存在，500表示服务器内部错误等。

reason：同父类一样，用于返回错误的原因。

headers：返回请求头。

下面我们用几个实例来看看：

from urllib import request,error
try:
    response = request.urlopen('http://cuiqingcai.com/index.htm')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')

运行结果如下：

Not Found
404
Server: nginx/1.4.6 (Ubuntu)
Date: Wed, 03 Aug 2016 08:54:22 GMT
Content-Type: text/html; charset=UTF-8
Transfer-Encoding: chunked
Connection: close
X-Powered-By: PHP/5.5.9-1ubuntu4.14
Vary: Cookie
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0
Pragma: no-cache
Link: <http://cuiqingcai.com/wp-json/>; rel="https://api.w.org/"

依然是同样的网址，这里捕获了HTTPError异常，输出了reason、code和headers属性。

因为URLError是HTTPError的父类，所以可以先选择捕获子类的错误，再去捕获父类的错误，所以上述代码更好的写法如下：

from urllib import request, error

try:
    response = request.urlopen('http://cuiqingcai.com/index.htm')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')
except error.URLError as e:
    print(e.reason)
else:
    print('Request Successfully')

这样就可以做到先捕获HTTPError，获取它的错误状态码、原因、headers等信息。如果不是HTTPError异常，就会捕获URLError异常，输出错误原因。最后，用else来处理正常的逻辑。这是一个较好的异常处理写法。

有时候，reason属性返回的不一定是字符串，也可能是一个对象。再看下面的实例：

import socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen('https://www.baidu.com', timeout=0.01)
except urllib.error.URLError as e:
    print(type(e.reason))
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

这里我们直接设置超时时间来强制抛出timeout异常。

运行结果如下：

<class 'socket.timeout'>
TIME OUT

可以发现，reason属性的结果是socket.timeout类。所以，这里我们可以用isinstance()方法来判断它的类型，作出更详细的异常判断。

本节中，我们讲述了error模块的相关用法，通过合理地捕获异常可以做出更准确的异常判断，使程序更加稳健。

来源：华为云社区作者：崔庆才丨静觅

内容总结

以上是互联网集市为您收集整理的【Python3网络爬虫开发实战】3.1.2-处理异常全部内容，希望文章能够帮你解决【Python3网络爬虫开发实战】3.1.2-处理异常所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/777831.html

来源：【匿名】

【上一篇】[Python 应用：爬虫] Selenium 定位元素方法【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【【Python3网络爬虫开发实战】3.1.2-处理异常】教程文章相关的互联网学习教程文章

爬虫urllib2 的异常错误处理URLError和HTTPError【代码】

urllib2 的异常错误处理在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。这里主要说的是URLError和HTTPError，以及对它们的错误处理。URLErrorURLError 产生的原因主要有：没有网络连接服务器连接失败找不到指定的服务器我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名：# urllib2_urlerror.pyimport urllib2requset = urllib2.R...

爬虫基础spider 之(五) --- 代理、异常、验证码、ai【代码】

ip代理配置 1from urllib import request,parse2 3 url = "https://www.baidu.com/s?wd=ip" 4 headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36‘}5 6# 创建一个请求对象 7 req = request.Request(url=url,headers=headers)8 9# 创建一个handler10 handler = request.ProxyHandler({"http":‘122.241.88.79:15872‘}) 1112# 创...

[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类，通常在特定HTTP URLs中产生。 1.URLError通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。<spanMicrosoft YaHei; font-size:18px">这种情况下，异常同样会带有"reason"属性，它是一个tuple（可以理解为不可变的...

在运行爬虫程序时总会出现以下异常_html/css_WEB-ITnose

我写的程序可以运行，但是总会出现以下异常中断运行，然后再运行程序时，就没问题了，很多次了 1.java.net.SocketTimeoutException: Read timed out 2.java.net.SocketTimeoutException: connect timed out 3.java.net.ConnectException: Connection timed out: connect 以上三个异常，经过跟踪确定都是在执行这句代码时出现的： doc = Jsoup.connect( url) .data("query", "Java") .userAgent("Mozilla")...

玩转python爬虫之URLError异常处理

本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚import urllib2requset = urllib2.Request(http://www.xxxxx.com) try:urllib2.urlopen(requset) except urllib2.URLError, e:print e.reason 我们利用...

零基础写python爬虫之HTTP异常处理

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。 HTTPError是urlError的子类，通常在特定HTTP URLs中产生。1.URLError 通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。这种情况下，异常同样会带有"reason"属性，它是一个tuple（可以理解为不可变的数组），包含了一个错误号和一个错误...

Python爬虫 requests教学（五）：常见异常处理【代码】【图】

网页出现乱码出现乱码的原因是因为网页解码过程中没有设置如何编码 response.encoding = response.apparent_encodingPython爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 Python学习交流群：1039649593 请求头参数 InvalidHeader: Invalid return character or leading space in header: User-Agent import requestsheaders = {'User-Agent': ' Mozilla/5.0 (windows NT 10.0; wow64)...

python爬虫与数据可视化——python基础知识：异常处理【图】

1、发生异常会导致程序中断 2、捕获异常 try:...... except 错误名: 3、except后面可以输出错误提示 4、获取错误描述 5、捕获所有异常 6、try,,,finally和嵌套