首页 / PYTHON / Python 爬虫 --- urllib

Python 爬虫 --- urllib

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python 爬虫 --- urllib，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3671字，纯文字阅读大概需要6分钟。

内容图文

对于互联网数据，Python 有很多处理网络协议的工具，urllib 是很常用的一种。

一、urllib.request，request 可以很方便的抓取 URL 内容。

urllib.request.urlopen(url) 　返回请求 url 后的二进制对象·

　　　　参数：url=‘http://www.baidu.com’，请求的 url。

　　　　　　　data=None，请求的数据，可有可无，bytes 类型。

　　　　　　　timeout=3，设置访问超时时间，可有可无

　　　　　　　cafile=None，HTTPS 请求 CA 证书

　　　　　　　capath=None，CA 证书 path

　　　　　　　context=None，指定 SSL 设置，可有可无，ssl.SSLContext 类型

urllib.request.Request()　　把请求独立成一个对象，对请求参数的设定更方便灵活

　　　　参数：url，请求 url。

　　　　　　　data=None，请求参数，可有可无

　　　　　　　headers={}，请求 header 参数。

　　　　　　　origin_req_host=None，请求 host 或 IP

　　　　　　　unverifiable=False，表明请求是否无法验证，默认为 false

　　　　　　　method=None，请求方法，get、post、put 等

urllib.request.ProxyHandler()　　设置代理，参数为 dict，如：{ ‘http‘: ‘120.194.18.90:81‘}
urllib.request.build_opener()　　构建 Opener，参数为上面设置的代理
urllib.request.install_opener()　　安装 Opener，参数为上面构建的 opener
urllib.request.HTTPCookieProcessor()　　cookie 操作，参数为 http.cookiejar.CookieJar() 得到的 cookie

            from urllib import request,parse

#url
url = ‘http://fanyi.baidu.com/sug‘#request data
data = {‘kw‘: ‘python‘}
data = parse.urlencode(data).encode(‘utf-8‘)

#proxy
proxy = {‘http‘: ‘120.194.18.90:81‘}
proxy_handler = request.ProxyHandler(proxy)
opener = request.build_opener(proxy_handler)
request.install_opener(opener)

#headers = {
#    ‘Content-Length‘: len(data),
#    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0‘
#}#req = request.Request(url=base_url, data=data, headers=headers)
req = request.Request(base_url, data)

req.add_header(‘User-Agent‘, ‘Mozilla/5.0 (Windows NT 10.0; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0‘)

rsp = request.urlopen(req)

result = rsp.read().decode(‘utf-8‘)

print(result)

            #
            rsp 的属性
            print(‘返回数据类型: {}‘.format(type(rsp)))

print(‘返回数据信息: {}‘.format(rsp))

print(‘header 信息: {}‘.format(rsp.info()))

print(‘header 信息: {}‘.format(rsp.getheaders()))

print(‘header 属性信息: {}‘.format(rsp.getheader(‘Server‘)))

print(‘响应状态信息: {}‘.format(rsp.status))

print(‘响应状态信息: {}‘.format(rsp.getcode()))

print(‘响应的 URL: {}‘.format(rsp.geturl()))

            #
            cookie 操作
            from urllib import request
from http impot cookiejar

#获取 cookie
cookie = cookiejar.CookieJar()
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler)

rsp = opener.open(‘http://www.baidu.com‘)
res = rsp.read().decode(‘utf-8‘)

print(res)

#保存 cookie
#FileCookieJar、MozillaCookieJar、LWPCookieJar，不同的保存格式
filename = ‘cookie.txt‘
cookie = cookiejar.MozillaCookieJar(filename)
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler)

rsp = opener.open(‘http://www.baidu.com‘)

cookie.save(igonre_discard=True, ignore_expires=True)

#使用 cookiecookie cookiejar.MozillaCookieJar()
cookie.load(‘cookie.txt‘, ignore_discard=True, ignore_expires=True)
handler = request.HTTPCookieProcessor(cookie)
opener = request.build_opener(handler)
rsp = opener.open(‘http://www.baidu.com‘)

res = rsp.read().decode(‘utf-8‘)
print(res)

二、urllib.parse

urllib.parse.urlparse()　　将 URL 解析成元组形式

　　　　参数：

　　　　　　url，访问 url

　　　　　　scheme，解析协议，https、http

　　　　　　allow_fragments=False，是够带有查询参数　

urllib.parse.urlunparse()　　将元组拼接成完整 url
urllib.parse.urljoin()　　拼接 url

            #
            1
url = ‘https://www.baidu.com/s?‘
qs = {‘wd‘:‘python‘}

qs = urllib.parse.urlparse(qs)
full_url = url + qs

#2
url = urllib.parse.urlparse(‘http://www.baidu.com/s?wd=python‘)
print(url)

#3
data = [‘http‘, ‘www.baidu.com‘, ‘s‘, ‘wd=python‘]
print(urllib.parse.urlunparse(data))

#4print(urllib.parse.urljson(‘http://www.baidu.com‘, ‘index.html‘))

三、urllib.error

通过 try...except 可以捕捉异常，error 分为 HTTPError，URLError

            try
            :
    res = urllib.request.urlopen(url).open().decode(‘utf-8‘)
    print(res)
except urllib.error.URLError as e:
    print(e)
except urllib.error.HTTPError as e:
    print(e)
except Exception as e:
    print(e)

四、urllib.robotparser

原文：https://www.cnblogs.com/rendd/p/10208182.html

内容总结

以上是互联网集市为您收集整理的Python 爬虫 --- urllib全部内容，希望文章能够帮你解决Python 爬虫 --- urllib所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1331446.html

来源：【匿名】

【上一篇】python3.4.1下base64编码问题【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python 爬虫 --- urllib】教程文章相关的互联网学习教程文章

Python 爬虫 --- urllib【代码】

对于互联网数据，Python 有很多处理网络协议的工具，urllib 是很常用的一种。一、urllib.request，request 可以很方便的抓取 URL 内容。urllib.request.urlopen(url)　返回请求 url 后的二进制对象·　　　　参数：url=‘http://www.baidu.com’，请求的 url。　　　　　　　data=None，请求的数据，可有可无，bytes 类型。　　　　　　　timeout=3，设置访问超时时间，可有可无　　　　　　　cafile=None，HTTPS 请求 CA 证书　　...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python 【爬虫】【图】

爬虫的工作原理首先，爬虫可以模拟浏览器去向服务器发出请求；其次，等服务器响应后，爬虫程序还可以代替浏览器帮我们解析数据；接着，爬虫可以根据我们设定的规则批量提取相关数据，而不需要我们去手动提取；最后，爬虫可以批量地把数据存储到本地爬虫的步骤第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步：提...

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页【图】

0元免费IP列表首先分享一波：免费代理由第三方服务器提供，IP质量不高。IP地址端口号匿名程度支持协议地区稳定时间更新时间FREE 114.233.51.111 4257 超高HTTP江苏省泰州市5-1440分钟2020/10/18 11:00:01FREE 49.71.99.110 4226 超高HTTP江苏省扬州市5-1440分钟2020/10/18 10:00:01FREE 183.4.66.22 4205 超高HTTP广东省江门市5-1440分钟2020/10/18 09:00:01FREE 119.7.231.13 64261 超高HTTP四川省雅安市5-1440分钟2020/10/...

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。\小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是：打开ch...

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

一、下载一只猫import urllib.requestresponse = urllib.request.urlopen("http://cdn.duitang.com/uploads/item/201111/24/20111124222137_wHYwc.jpg") cat_img = response.read()with open(‘cat_0.jpeg‘, ‘wb‘) as f:f.write(cat_img) urlopen()中的url可以是string，也可以是request object，因此可以是：import urllib.requestreq = urllib.request.Request("http://cdn.duitang.com/uploads/item/201111/24/2011112422213...

python 爬虫--同花顺-使用代理

1.http://www.goubanjia.com/ 在上面获取使用http协议的公网IP和端口参考：https://blog.csdn.net/qq_23934063/article/details/790639372. 关键代码如下：#python3# coding: utf-8from bs4 import BeautifulSoupimport requestsimport jsonimport timeimport randomcodelist = []for zxcode000 in range(100,999): code000 = ‘000‘ + str(zxcode000) codelist.append(code000)for zhongxiaocode in range(10,100): ...

Python爬虫：BeautifulSoup用法总结【代码】【图】

原文BeautifulSoup是一个解析HTML或XML文件的第三方库。HTML或XML文件可以用DOM模型解释。一般包含三种节点：元素节点 - 通常指HTML 或 XML的标签文本节点 - 标签内部的文本内容属性节点 - 每个标签的属性BeautifulSoup库可以对HTML或XML文件解析，查找到一个或多个标签元素，并获取每个标签里的文本和属性。BeautifulSoup很好的特性是它接受一个str或byte对象后会对编码自动检测，并对当前文档编码并转换成Unicode编码。这样可以不...

python爬虫---beautifulsoup（2）

之前我们使用的是python的自带的解析器html.parser。官网上面还有一些其余的解析器，我们分别学习一下。解析器使用方法优点缺点htm.parserBeautifulSoup(markup,‘html.parser‘)1、python自带的2、解析速度过得去3、容错强2.7之前的版本，和3.3之前不包括2.7的都不支持lxml`s HTML parserBeautifulSoup(markup,‘lxml‘)1、非常快2、容错强要安装C语言库lxml`s xml parser　BeautifulSoup(markup,[‘lxml‘,‘xml‘])BeautifulSou...

python爬虫 Selenium库学习【代码】

一、自动化测试工具，支持多种浏览器，解决JS渲染问题二、安装pip3 install Selenium三、操作介绍（因为是学习别人的课程为了尊重知识产权，部分代码就不显示了）1驱动浏览器browser = webdriver.Chrome()try: 　　　browser.get(‘www.sina.com‘)#上网 2查找元素一种方法：browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_id()browser.find_element_by_xpath()browser.find_elemen...

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。headers = {‘User-A...

Python 爬虫实例【代码】【图】

下面是我写的一个简单爬虫实例1.定义函数读取html网页的源代码2.从源代码通过正则表达式挑选出自己需要获取的内容3.序列中的htm依次写到d盘#!/usr/bin/python import re import urllib.request#定义函数读取html网页的源代码 def getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html#从源代码通过正则表达式挑选出自己需要获取的内容 def getImg(html):reg = r‘href="(.*?\.htm)"‘imgre = re.compile...

Python爬虫爬取房天下数据-入MySql数据库【代码】【图】

Python爬取房天下某城市数据随着互联网时代的兴起，技术日新月异，掌握一门新技术对职业发展有着很深远的意义，做的第一个demo，以后会在爬虫和数据分析方便做更深的研究，本人不会做详细的文档，有哪里不足的地方，希望大牛们指点讲解。废话不多说，上代码。你需要的技能：（1）对前端知识熟悉会调试浏览器（2）熟练python基础知识，对一些常用的库熟练掌握（3）掌握一般关系型数据库import requests as req import time import p...

Python爬虫_三种数据解析方式【代码】

正则解析单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W : 非\w\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S : 非空白数量修饰：* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} ：固定m次 hello{3,}{m,} ：至少m次{m,n} ：m-n次边界：$ : 以某某结尾 ^ : 以某某开头分组：(ab) 贪婪模式：...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python 爬虫 --- urllib

Python 爬虫 --- urllib

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python 爬虫 --- urllib】教程文章相关的互联网学习教程文章

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程