爬虫初探(2)之requests

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫初探(2)之requests，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2361字，纯文字阅读大概需要4分钟。

内容图文

关于请求网络，requests这个库是爬虫经常用到的一个第三方库。

            import
             requests

url = ‘http://www.baidu.com‘#这里用get方法用来请求网页，其他还有post等方法来请求网页
data = requests.get(url)

print(data)
#<Response [200]>print(data.text)#这里的 .text 就等同于上一篇中的 read()
#此时同样打印出网页源码

其余方法后期学习，方法列表如下：

            #
            HTTP请求类型
            
#
            get类型
r = requests.get(‘https://github.com/timeline.json‘)
#post类型
r = requests.post("http://m.ctrip.com/post")
#put类型
r = requests.put("http://m.ctrip.com/put")
#delete类型
r = requests.delete("http://m.ctrip.com/delete")
#head类型
r = requests.head("http://m.ctrip.com/head")
#options类型
r = requests.options("http://m.ctrip.com/get")

#获取响应内容print r.content #以字节的方式去显示，中文显示为字符print r.text #以文本的方式去显示#URL传递参数
payload = {‘keyword‘: ‘日本‘, ‘salecityid‘: ‘2‘}
r = requests.get("http://m.ctrip.com/webapp/tourvisa/visa_list", params=payload) 
print r.url #示例为http://m.ctrip.com/webapp/tourvisa/visa_list?salecityid=2&keyword=日本#获取/修改网页编码
r = requests.get(‘https://github.com/timeline.json‘)
print r.encoding
r.encoding = ‘utf-8‘#json处理
r = requests.get(‘https://github.com/timeline.json‘)
print r.json() #需要先import json    #定制请求头
url = ‘http://m.ctrip.com‘
headers = {‘User-Agent‘ : ‘Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 4 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile Safari/535.19‘}
r = requests.post(url, headers=headers)
print r.request.headers

#复杂post请求
url = ‘http://m.ctrip.com‘
payload = {‘some‘: ‘data‘}
r = requests.post(url, data=json.dumps(payload)) #如果传递的payload是string而不是dict，需要先调用dumps方法格式化一下#post多部分编码文件
url = ‘http://m.ctrip.com‘
files = {‘file‘: open(‘report.xls‘, ‘rb‘)}
r = requests.post(url, files=files)

#响应状态码
r = requests.get(‘http://m.ctrip.com‘)
print r.status_code
    
#响应头
r = requests.get(‘http://m.ctrip.com‘)
print r.headers
print r.headers[‘Content-Type‘]
print r.headers.get(‘content-type‘) #访问响应头部分内容的两种方式#Cookies
url = ‘http://example.com/some/cookie/setting/url‘
r = requests.get(url)
r.cookies[‘example_cookie_name‘]    #读取cookies    
url = ‘http://m.ctrip.com/cookies‘
cookies = dict(cookies_are=‘working‘)
r = requests.get(url, cookies=cookies) #发送cookies#设置超时时间
r = requests.get(‘http://m.ctrip.com‘, timeout=0.001)

#设置访问代理
proxies = {
           "http": "http://10.10.10.10:8888",
           "https": "http://10.10.10.100:4444",
          }
r = requests.get(‘http://m.ctrip.com‘, proxies=proxies)

原文：http://www.cnblogs.com/congtoukaishi/p/6081884.html

内容总结

以上是互联网集市为您收集整理的爬虫初探(2)之requests全部内容，希望文章能够帮你解决爬虫初探(2)之requests所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1282416.html

来源：【匿名】

【上一篇】尝试java开发搜索引擎爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫初探(2)之requests】教程文章相关的互联网学习教程文章

关于请求网络，requests这个库是爬虫经常用到的一个第三方库。import requestsurl = ‘http://www.baidu.com‘#这里用get方法用来请求网页，其他还有post等方法来请求网页 data = requests.get(url)print(data) #<Response [200]>print(data.text)#这里的 .text 就等同于上一篇中的 read() #此时同样打印出网页源码其余方法后期学习，方法列表如下：#HTTP请求类型 #get类型 r = requests.get(‘https://github.com/timeline.json‘...

爬虫之requests 高级用法【代码】

1. 文件上传import requestsfiles = {‘file‘: open(‘favicon.ico‘, ‘rb‘)} r = requests.post("http://httpbin.org/post", files=files) print(r.text){"args": {}, "data": "", "files": {"file": "data:application/octet-stream;base64,AAAAAA...="}, "form": {}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Content-Length": "6665", "Content-Type": "multipart/form-data; boundary=809f80b1...

python之路_day96_爬虫之requests模块补充【代码】

一、响应Response1、response属性import requests respone=requests.get(‘http://www.jianshu.com‘) # respone属性print(respone.text) #获得文本内容print(respone.content) #获得二进制文本内容print(respone.status_code) #获得状态码print(respone.headers) #获得响应头print(respone.cookies) #获得cookies...

python学习之爬虫：安装requests模块【图】

终端输入命令：pip install requests 如果报错：p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #c33720; background-color: #ffffff } span.s1 { }Installing collected packages: idna, urllib3, certifi, chardet, requestsException:Traceback (most recent call last): File "/Library/Pyt...

利用Requests库写爬虫【代码】

基本Get请求：#-*- coding:utf-8 -*- import requests url = ‘http://www.baidu.com‘ r = requests.get(url) print r.text带参数Get请求：#-*- coding:utf-8 -*- import requests url = ‘http://www.baidu.com‘ payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘} r = requests.get(url, params=payload) print r.textPOST请求模拟登陆及一些返回对象的方法：#-*- coding:utf-8 -*- import requests url1 = ‘http://www...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

爬虫--requests基本请求：get和post带参数【代码】

# get请求 response = requests.get(url=url, params=params, headers=headers, proxies=proxies)# post请求 response = requests.post(url=url, data=data, headers=headers, proxies=proxies) 原文：https://www.cnblogs.com/wangshx666/p/13293246.html

爬虫小试--用python中requests和urllib模块爬取图片【代码】

今天突发奇想小试爬虫,获取一下某素材站一些图片实现步骤如下:import re import requests from urllib import request import os# 1.首先要检查数据是否是动态加载出来的 # 2.获取页面源码数据ifnot os.path.exists(‘tupian‘):os.mkdir(‘tupian‘) headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc...

Python爬虫：认识urllib/urllib2以及requests【代码】

首先说明一下我的爬虫环境是基于py2.x的，为什么用这个版本呢，因为py2.x的版本支持的多，而且一般会使用py2.x环境，基本在py3.x也没有太大问题，好了，进入正题！ urllib 与 urllib2urllib与urllib2是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. 构建一个请求与响应模型import urllib2strUrl = "http://www.baidu.com" response = urllib2.urlopen(strUrl) print response.read()得到： <div ><b>网页</b><a href...

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）【代码】【图】

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）一、requests库的基本使用requests是python语言编写的简单易用的HTTP库，使用起来比urllib更加简洁方便。 requests是第三方库，使用前需要通过pip安装。pip install requests 1.基本用法：import requests#以百度首页为例 response = requests.get(‘http://www.baidu.com‘)#response对象的属性print(response.status_code) # 打印状态码print(response.url...

爬虫-请求库之request【代码】

阅读目录一介绍二基于GET请求三基于POST请求四响应Response五高级用法一介绍#介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）#注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求#安装：pip3 install requests#各种请求方式：常用的就是requests.get()和requests.post() >>> impor...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

Python爬虫之request模块【代码】

1. 请求方式# 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求1. Request = requests.rquest(method, url, **kwargs) # 构造一个请求# ethod(6个) head/get/post/put/patch/delete2. requests.head(url, **kwargs)3. requests.ge...

REQUEST - 相关标签

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...