利用Requests库写爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用Requests库写爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3707字，纯文字阅读大概需要6分钟。

内容图文

基本Get请求：

                #-*- coding:utf-8 -*-
import requests
url = ‘http://www.baidu.com‘
r = requests.get(url)
print r.text

带参数Get请求：

                #-*- coding:utf-8 -*-
import requests
url = ‘http://www.baidu.com‘
payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘}
r = requests.get(url, params=payload)
print r.text

POST请求模拟登陆及一些返回对象的方法：

                #-*- coding:utf-8 -*-
import requests
url1 = ‘http://www.exanple.com/login‘#登陆地址
url2 = "http://www.example.com/main"#需要登陆才能访问的地址
data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
res1 = requests.post(url1, data=data, headers=headers)
res2 = requests.get(url2, cookies=res1.cookies, headers=headers)

print res2.content#获得二进制响应内容
print res2.raw#获得原始响应内容,需要stream=True
print res2.raw.read(50)
print type(res2.text)#返回解码成unicode的内容
print res2.url
print res2.history#追踪重定向
print res2.cookies
print res2.cookies[‘example_cookie_name‘]
print res2.headers
print res2.headers[‘Content-Type‘]
print res2.headers.get(‘content-type‘)
print res2.json#讲返回内容编码为json
print res2.encoding#返回内容编码
print res2.status_code#返回http状态码
print res2.raise_for_status()#返回错误状态码

使用Session()对象的写法（Prepared Requests）:

                #-*- coding:utf-8 -*-
import requests
s = requests.Session()
url1 = ‘http://www.exanple.com/login‘#登陆地址
url2 = "http://www.example.com/main"#需要登陆才能访问的地址
data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }

prepped1 = requests.Request(‘POST‘, url1,
    data=data,
    headers=headers
).prepare()
s.send(prepped1)


‘‘‘
也可以这样写
res = requests.Request(‘POST‘, url1,
data=data,
headers=headers
)
prepared = s.prepare_request(res)
# do something with prepped.body
# do something with prepped.headers
s.send(prepared)
‘‘‘

prepare2 = requests.Request(‘POST‘, url2,
    headers=headers
).prepare()
res2 = s.send(prepare2)

print res2.content

另一种写法 :

                #-*- coding:utf-8 -*-
import requests
s = requests.Session()
url1 = ‘http://www.exanple.com/login‘#登陆地址
url2 = "http://www.example.com/main"#需要登陆才能访问的页面地址
data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }
res1 = s.post(url1, data=data)
res2 = s.post(url2)
print(resp2.content)

SessionApi

其他的一些请求方式

                >>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

遇到的问题:

在cmd下执行，遇到个小错误:

                UnicodeEncodeError:‘gbk‘ codec can‘t encode character u‘\xbb‘ in   
position 23460: illegal multibyte sequence

分析:
1、Unicode是编码还是解码

                UnicodeEncodeError

很明显是在编码的时候出现了错误

2、用了什么编码

                ‘gbk‘ codec can‘t encode character

使用GBK编码出错

解决办法：

确定当前字符串，比如

                #-*- coding:utf-8 -*-
import requests
url = ‘http://www.baidu.com‘
r = requests.get(url)
print r.encoding
>utf-8

已经确定html的字符串是utf-8的，则可以直接去通过utf-8去编码。

                print r.text.encode(‘utf-8‘)

作者：Jelvis
链接：http://www.jianshu.com/p/e1f8b690b951
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

原文：http://www.cnblogs.com/sunshine-1/p/7376398.html

内容总结

以上是互联网集市为您收集整理的利用Requests库写爬虫全部内容，希望文章能够帮你解决利用Requests库写爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1250022.html

来源：【匿名】

【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【利用Requests库写爬虫】教程文章相关的互联网学习教程文章

基本Get请求：#-*- coding:utf-8 -*- import requests url = ‘http://www.baidu.com‘ r = requests.get(url) print r.text带参数Get请求：#-*- coding:utf-8 -*- import requests url = ‘http://www.baidu.com‘ payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘} r = requests.get(url, params=payload) print r.textPOST请求模拟登陆及一些返回对象的方法：#-*- coding:utf-8 -*- import requests url1 = ‘http://www...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

爬虫--requests基本请求：get和post带参数【代码】

# get请求 response = requests.get(url=url, params=params, headers=headers, proxies=proxies)# post请求 response = requests.post(url=url, data=data, headers=headers, proxies=proxies) 原文：https://www.cnblogs.com/wangshx666/p/13293246.html

爬虫小试--用python中requests和urllib模块爬取图片【代码】

今天突发奇想小试爬虫,获取一下某素材站一些图片实现步骤如下:import re import requests from urllib import request import os# 1.首先要检查数据是否是动态加载出来的 # 2.获取页面源码数据ifnot os.path.exists(‘tupian‘):os.mkdir(‘tupian‘) headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc...

Python爬虫：认识urllib/urllib2以及requests【代码】

首先说明一下我的爬虫环境是基于py2.x的，为什么用这个版本呢，因为py2.x的版本支持的多，而且一般会使用py2.x环境，基本在py3.x也没有太大问题，好了，进入正题！ urllib 与 urllib2urllib与urllib2是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. 构建一个请求与响应模型import urllib2strUrl = "http://www.baidu.com" response = urllib2.urlopen(strUrl) print response.read()得到： <div ><b>网页</b><a href...

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）【代码】【图】

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）一、requests库的基本使用requests是python语言编写的简单易用的HTTP库，使用起来比urllib更加简洁方便。 requests是第三方库，使用前需要通过pip安装。pip install requests 1.基本用法：import requests#以百度首页为例 response = requests.get(‘http://www.baidu.com‘)#response对象的属性print(response.status_code) # 打印状态码print(response.url...

爬虫-请求库之request【代码】

阅读目录一介绍二基于GET请求三基于POST请求四响应Response五高级用法一介绍#介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）#注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求#安装：pip3 install requests#各种请求方式：常用的就是requests.get()和requests.post() >>> impor...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

Python爬虫之request模块【代码】

1. 请求方式# 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求1. Request = requests.rquest(method, url, **kwargs) # 构造一个请求# ethod(6个) head/get/post/put/patch/delete2. requests.head(url, **kwargs)3. requests.ge...

二 . 爬虫 requests模块使用和请求响应相关参数【代码】

一 . requests模块使用和请求响应相关参数https://www.cnblogs.com/wupeiqi/articles/6283017.html1. requests get请求相关参数import requestsurl = ‘http://httpbin.org/get?name=bob‘# 请求url，？后面拼接的是参数 params = {‘name‘: ‘nick‘,‘age‘: ‘18‘} # 参数，与url上的参数同时存在，没有优先级，若key相同，则值以列表形式存在 cookies = {‘xxx‘: ‘111‘,‘yyy‘: ‘222‘} # cookie值，若headers中有...

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

1: 利用urllib.request和正则表达式抓取职位信息 1# coding:utf-8 2 3import re4import requests5import urllib.request6 7#利用urllib和re正则提取网页数据 8 9‘‘‘10url = ‘https://search.51job.com/list/020000,000000,0124,01,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fr...

python requests库中的post详解，有这一篇可以做爬虫和接口就足够了【代码】【图】

上一篇文章，我们详细介绍了http请求的常用方法以及细节，大家可以点击：https://blog.51cto.com/u_13025170/2961690进行观看，这一篇文章让你对整个http请求有更详细的认识，两篇结合看，掌握自动化和爬虫不再是难事话不多说，我们直奔主题，上代码一、post请求及响应详解# -*- coding: utf-8 -*- #引入requests库 import requests#设置函数，抿成send_requests def send_requests():#请求地址url = ‘http://httpbin.org/post‘#...

python3爬虫之requests库基本使用【代码】

官方文档链接（中文）https://2.python-requests.org/zh_CN/latest/requests 基于 urllib3 ，python编写。安装 pip install requests （python3）anaconda 版本用pip安装要在 anaconda prompt 里打入安装命令提示Requirement already satisfied: requests in xxxxxx 表示已经安装了import requestsresponse=requests.get(‘http://www.baidu.com‘) #打印类型print(type(response)) #打印状态码print(response.status_code...

REQUEST - 相关标签

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 利用Requests库写爬虫