首页 / PYTHON / [Python3]HTTP处理 - urllib模块

[Python3]HTTP处理 - urllib模块

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了[Python3]HTTP处理 - urllib模块，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2427字，纯文字阅读大概需要4分钟。

内容图文

概述

urllib是python最基础、最核心的HTTP协议支持库，诸多第三方库都依赖urllib，所以urllib是必须掌握的HTTP库。

掌握了urllib有利于：

深入理解http协议
可以更好的学习和掌握第三方http库
快速的开展基于http的接口测试
快速进入爬虫学习之路

urllib组成

我们一起看下urllib由哪些模块或类构成：

urllib.request
用于构建http请求
urllib.response
用于处理http响应值的类
urllib.parse 用于url处理
urllib.error
用于错误处理
urllib.robotparser
用于处理robot.txt文件

爬取数据实例

下面我们基于豆瓣网的API来看看代码实例

豆瓣网API网址：https://developers.douban.com/wiki/?title=guide

下面的实例演示了如何使用豆瓣网的API 进行数据爬取，从而演示urllib的强大能力。

请勿使用下述代码持续爬取数据

            #
             -*- coding:utf-8 -*-
            __author__ = ‘谷白‘import urllib.request
import csv
import codecs

if__name__ == "__main__":
    print("urllib爬取豆瓣网数据示例")
    print("搜索下关键字： Python")

    url = "https://api.douban.com/v2/book/search?q=python"
    response = urllib.request.urlopen(url)

    # 将bytes数据流解码成string
    ebook_str = response.read().decode()

    # 将string转换成dict
    ebook_dict = eval(ebook_str)

    #print(ebook_dict)#print(type(ebook_dict))
    count = ebook_dict["count"]    
    total = ebook_dict["total"]

    with codecs.open(‘books.csv‘, ‘w‘, ‘utf-8‘) as csvfile:
        spamwriter = csv.writer(csvfile, delimiter=‘,‘,
                                quotechar=‘|‘, quoting=csv.QUOTE_MINIMAL)
        spamwriter.writerow(["书名", "作者", "描述", "出版社", "价格"])
        # 写书信息        for book in ebook_dict["books"]:
            spamwriter.writerow([book["title"], 
                ",".join(book["author"]), 
                book["summary"], 
                book["publisher"], 
                book["price"]])
            


        # 从第2页开始，获取其他书籍信息        # 这段代码采集了大量数据，容易被封IP，所以注释了"""
        for start in range(1, int(total / count) + 1):
            url = "https://api.douban.com/v2/book/search?q=python&start=%d" % start
            try:
                response = urllib.request.urlopen(url)
            except:                
                print("别老爬别人的数据，要爬也别太快，会被封IP的")  
                break


            # 将bytes数据流解码成string
            ebook_str = response.read().decode()

            # 将string转换成dict
            ebook_dict = eval(ebook_str)

            # 输出书籍信息
            for book in ebook_dict["books"]:
                spamwriter.writerow([book["title"], 
                ",".join(book["author"]), 
                book["summary"], 
                book["publisher"], 
                book["price"]]) 
        """print("总计搜索了 %d 本书的信息" % total)

请勿使用上述代码持续爬取数据

对于其他的接口，这里就不再演示。

基本功能实例

下面我们演示下urllib基本功能实例，例如如何获取返回码等等基本信息。

            #
             -*- coding:utf-8 -*-
            __author__ = ‘谷白‘import urllib.request

if__name__ == "__main__":    
    print("urllib基本实例")

    url = "http://www.baidu.com"# 访问下百度
    response = urllib.request.urlopen(url)    

    # 打印下状态码print(response.status)    
    
    # 打印下状态码对应的可读性文字说明，例如在http协议里，200 对应 OKprint(response.reason)    
    
    # 打印下请求返回的headerprint(response.headers)    
    
    # 打印下请求返回的数据print(response.read().decode("utf-8"))

上述仅仅是urllib的基本功能，还有更强大的功能，我们后续再分享。

原文：http://www.cnblogs.com/igubai/p/7500020.html

内容总结

以上是互联网集市为您收集整理的[Python3]HTTP处理 - urllib模块全部内容，希望文章能够帮你解决[Python3]HTTP处理 - urllib模块所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1092626.html

来源：【匿名】

【上一篇】python 的简单抓取图片【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【[Python3]HTTP处理 - urllib模块】教程文章相关的互联网学习教程文章

Python基础知识之模块【代码】

一、syssys.argv　　命令行参数List，第一个元素是程序本身路径sys.exit(n) 　退出程序，正常退出时exit(0)sys.version 获取Python解释程序的版本信息sys.path 返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值sys.platform 返回操作系统平台名称sys.stdin 输入相关sys.stdout 输出相关例子：进度条import sysimport timedef view_bar(num, total): rate = float(num) / float(total) rat...

python_os模块【代码】

os模块 1import os2 3 os.remove(‘path‘) #删除指定路径的文件 4 os.rename("src","dst") #命名文件或目录 5 os.mkdir(‘case‘) #创建目录 6 os.makedirs(‘case/login‘) #递归创建目录 7 8print(os.listdir(r‘path‘) ) #方法用于返回指定的文件夹包含的文件或文件夹的名字的列表 9print(os.path.isdir(r‘path‘)) #用于判断对象是否为一个目录，返回True 或 false10print(os.path.isfile(r‘path‘)) #用于判断对象是否...

python的pyserial模块【代码】

pyserial是python提供用于进行串口通信的库源文档：https://pythonhosted.org/pyserial/1、安装pyserialpip install pyserial2、查看电脑现连串口设备import serial.tools.list_ports#检测设备的端口数 # plist = list(serial.tools.list_ports.comports())# if len(plist) <= 0: # print("没有发现端口!") # else: # #端口数 # print len(plist)# plist_0 = list(plist[1]) # serialName = plist_0[0] # ...

Python shutil模块【代码】

参考链接： https://www.cnblogs.com/zhangboblogs/p/7821702.html　　　　　 https://www.cnblogs.com/xiangsikai/p/7787101.html找了一圈的博客发现大大小小都有问题，还是看源码吧@app.route(‘/index/‘, methods=[‘GET‘, ‘POST‘]) def index():import osimport shutilif request.method == ‘GET‘:return render_template(‘index.html‘)# POSTfile_obj = request.files.get(‘code‘)# print(file_obj) # <FileSto...

python里面的xlrd模块详解（一）【代码】【图】

那我就一下面积个问题对xlrd模块进行学习一下：1.什么是xlrd模块？2.为什么使用xlrd模块？3.怎样使用xlrd模块？1.什么是xlrd模块？　　?python操作excel主要用到xlrd和xlwt这两个库，即xlrd是读excel，xlwt是写excel的库。今天就先来说一下xlrd模块：一、安装xlrd模块　　? 到python官网下载http://pypi.python.org/pypi/xlrd模块安装，前提是已经安装了python 环境。　　?或者在cmd窗口 pip install xlrd二、使用介绍 1、常用单...

Python使用ctypes模块调用C/C++【代码】

最近在做图卷积相关的实验，里面涉及到图采样，该过程可以抽象为：从一个包含n个节点,m条边的图中根据一定规则采样一个连通图。由于实验使用的是FB15k-237数据集，共包含14541个节点，272115条边，每次采样30000条边，采样一次需要8s，这对于深度学习实验来说是难以接受的，会导致GPU长时间空闲。因此我开始尝试使用C/C++优化代码，虽然最后优化效果不行，但是也是对python调用C代码的一次学习，因此在此纪录一下。Python原代码 de...

Python模块:heapq堆

这个模块提供了堆队列算法的实现，也称为优先队列算法堆是一个二叉树，它的每个父节点的值都只会小于或大于所有孩子节点(的值),他使用了数组来实现。堆最小的元素总是在根节点:heap[0] 要创建一个堆，可以使用list来初始化为[],或者你可以通过一个函数heapify(),来把一个list转换成堆定义了以下函数:1.heapq.heappush(heap.item)将item的值加入到heap中，保持堆的不变性 2.heapq.heappop(heap)弹出并返回heap的最小的元素，保持堆的...

【转】Python中操作mysql的pymysql模块详解

Python中操作mysql的pymysql模块详解前言pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本：2.7.11。mysql版本：5.6.24一、安装1pip3 install pymysql二、使用操作1、执行SQL1234567891011121314151617181920212223242526#!/usr/bin/env pytho# -*- coding:utf-8 -*-importpymysql # 创建连接conn =pymysql.connect(host=‘127.0.0.1‘, port=...

Python 正则表达模块详解(7)【代码】

Python 的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语言的一种继承.Python是纯粹的自由软件,源代码和解释器CPython遵循 GPL(GNU General Public License)协议.关于python的哲学：python崇尚:"优雅"、"明确"、"简单",Python是用最简单最优雅最明确的方法来解决问题.正则表达式(Regluar Expressions)又称规则表达式,这个概念最初是由...

python学习之路——基础篇（3）模块（续）【代码】

re正则表达式、shutil、ConfigParser、xml一、re正则元字符和语法：语法说明　　表达式完全匹配字符　　　　　　　　　　字符一般字符　　匹配自身abc　　abc.匹配除换行符“\n”外,任意一个字符a.cabc\　　　　　　转义字符,将特殊字符转义为本身a\.ca\\ca.ca\c[...]匹配字符集任意一个字符，或者“-”表示一个集合范围如：[a-zA-Z0-9]匹配范围中任意一个字符；或者[^]匹配否定，对括号中的内容取反。[abc]efgaefgbefgcefg　　　　...

python re模块详解【代码】

匹配数字相关‘.‘ 默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行‘^‘ 匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)‘$‘ 匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以‘*‘ 匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac") 结果为[‘abb‘, ‘ab‘, ‘a‘]‘+‘ 匹配...

python configparser模块【代码】

来看一个好多软件的常见文档格式如下：[DEFAULT] ServerAliveInterval = 45 Compression = yes CompressionLevel = 9 ForwardX11 = yes[bitbucket.org] User = hg[topsecret.server.com] Port = 50022 ForwardX11 = no 如果想用python生成一个这样的文档怎么做呢？import configparserconfig = configparser.ConfigParser() config["DEFAULT"] = {‘ServerAliveInterval‘: ‘45‘,‘Compression‘: ‘yes‘,‘CompressionLevel‘...

python学习笔记(22) 模块

加载模块：　　1.先从sys.modules里查看是否已导入　　2.如果没有导入，就依据sys.path路径寻找模块　　3.找到模块就导入　　4.创建这个模块的命名空间　　5.执行文件，把文件中的名字放到命名空间里执行demo.read会优先查找demo里的函数和变量import time as t　　#给模块起别名，原名不再可用if file_format == ‘xml‘:　　import xmlreader as readerelif file_format == ‘csv‘:　　import csvreader as readerdata = reade...

python学习笔记二：if语句及循环语句，断点，模块，pyc

if语句注意：语句块中的内容要强制缩进，否则出错。IndentationError，缩进错误所有代码，如果是顶级的，必须顶格写，前面不能有空格if … : …elif … : …else: … while语句while …: …else: …for语句for i in range(10)——i默认0，步长默认1,最大为9for i in range (0,2,10)——从0开始，步长为2，最大为8for i in range(…): …else: …break——结束本层循环...

python常用模块之json和pickle模块

json模块json.dumps 将 Python 对象编码成 JSON 字符串json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。 pickle pickle.dump(obj, file, [,protocol])含义：pickle.dump（对象，文件，[使用协议]）将要持久化的数据“对象”，保存到“文件”中，使用有3种协议，索引0为ASCII，1为旧式二进制，2为新式二进制协议，不同之处在于2要更高效一些。默认dump方法使用0做协议pickle.load(file)含义：pickle....

首页 / PYTHON / [Python3]HTTP处理 - urllib模块

[Python3]HTTP处理 - urllib模块

内容导读

内容图文

概述

urllib组成

爬取数据实例

基本功能实例

内容总结

内容备注

内容手机端

【[Python3]HTTP处理 - urllib模块】教程文章相关的互联网学习教程文章

模块 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程