爬虫 requests 模块

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫 requests 模块，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3393字，纯文字阅读大概需要5分钟。

内容图文

简单介绍requests 模块

　Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。

简单的使用例如：

# 爬取指定的网页
url = "https://philips-reporting.livecom.cn/admin/index.jsp"

respones = requests.get(url) # 发送请求
respones.encoding = "UTF-8" #爬取内容编码防止乱码
page_text = respones.text

with open("./live.html", "w", encoding="utf-8") as f: #持续性存储
    f.write(page_text)

上面这段代码，将爬取下来的网页进行了保存。

那么我们进行数据量级处理：

遇到对应的反爬机制，
反爬机制有：UA检测
应对：反反爬策略：UA伪装
UA伪装：（1.定义一个字典 2.在字典中进行相关请求头的伪装 3.将伪装作用到get方法的headers参数中间即可）
UA检测被作用到大量的网站当中，因此在爬取时一定要加上UA操作

请求参数动态化:

最终实现请求参数动态化;

定义一个字典
字典中的键值对就是url 携带的参数
将字典作用到get 方法的params 方法中

来实现一个简单的需求;
爬取豆瓣电影的详情数据我们取电影名称，评分，以及电影地址:
分析可以得出：
1. 更多的数据请求是滚轮到达底部进行的ajax 请求。
2. 请求的url 进行捕获
3. url 的请求进行发送


url = "https://movie.douban.com/j/search_subjects"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
param = {
   "type": "movie",
   "tag": "爱情",
   "sort": "recommend",
   "page_limit": 200, #取多少步 这里可以设置为可变
   "page_start": 0, 从哪一部开始
}
response = requests.get(url, params=param, headers=headers)
move_list = response.json() #数据转换

print(move_list)
dict = {}
for i in move_list.values():
   for j in i:
      print(f'{j["title"].replace(" ","")} {j["rate"]} 观看地址: {j["url"]}')

动态加载案例分析

概念：通过其他或另一个请求得到的数据
特性：非见非可见
判断相关数据是否是动态加载数据；
-基于抓包工具定位到浏览器地址栏url 对应的请求数据包，进行同步搜索，这组数据不是动态加载的可以直接爬取,没有搜取到这组数据是动态加载的，不介意直接爬取。
如何捕获动态加载数据
-基于抓包工具进行全局搜索，最终可以动态加载数据对应的数据包
实例：非动态加载

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
params = {
    "cname": "上海",
    "pid": "",
    "keyword": "上海",
    "pageIndex": 1,
    "pageSize": 100,
}
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
response = requests.get(url,headers=headers,params=params)

kfc_store_address = response.json()
# print(kfc_store_address)

for i in kfc_store_address["Table1"]:
    # for j in i.items():
    print(f"店名：{i['storeName']} 地址: {i['provinceName']}{i['addressDetail']}")


-------------------------------------------------------------------------------------------
import requests
ids = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
url = "http://125.35.6.84:81/xk/itownel/portalAction.do?method=getXkzsList"
for page in range(1,6):
    data={
       'on':'ture',
        'page':str(page),
        'pageSize':"15",
        'praductName':'',
        'conditionType':'1',
        'applyname':'',
        'applyan':''
    }
    company_daya_json = requests.post(url=url,headers=headers,data=data).json()
    for dic in company_daya_json["list"]:
        _id=dic["ID"]
        ids.append(_id)
detail_url = "http://125.35.6.84:81/xk/itownel/portalAction.do?method=getXkzsById"
for _id in ids:
    data = {
        "id":_id
    }
    company_Json = requests.post(url=url,headers=headers,data=data).json()
    print(company_Json["epsName"],company_Json["epsProductAddress"])

内容总结

以上是互联网集市为您收集整理的爬虫 requests 模块全部内容，希望文章能够帮你解决爬虫 requests 模块所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/982430.html

来源：【匿名】

【上一篇】爬虫之汽车之家/抽屉新热榜/煎蛋网【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫 requests 模块】教程文章相关的互联网学习教程文章

阅读目录一介绍二基于GET请求三基于POST请求四响应Response五高级用法一介绍#介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）#注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求#安装：pip3 install requests#各种请求方式：常用的就是requests.get()和requests.post() >>> impor...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

Python爬虫之request模块【代码】

1. 请求方式# 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求1. Request = requests.rquest(method, url, **kwargs) # 构造一个请求# ethod(6个) head/get/post/put/patch/delete2. requests.head(url, **kwargs)3. requests.ge...

二 . 爬虫 requests模块使用和请求响应相关参数【代码】

一 . requests模块使用和请求响应相关参数https://www.cnblogs.com/wupeiqi/articles/6283017.html1. requests get请求相关参数import requestsurl = ‘http://httpbin.org/get?name=bob‘# 请求url，？后面拼接的是参数 params = {‘name‘: ‘nick‘,‘age‘: ‘18‘} # 参数，与url上的参数同时存在，没有优先级，若key相同，则值以列表形式存在 cookies = {‘xxx‘: ‘111‘,‘yyy‘: ‘222‘} # cookie值，若headers中有...

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

1: 利用urllib.request和正则表达式抓取职位信息 1# coding:utf-8 2 3import re4import requests5import urllib.request6 7#利用urllib和re正则提取网页数据 8 9‘‘‘10url = ‘https://search.51job.com/list/020000,000000,0124,01,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fr...

python requests库中的post详解，有这一篇可以做爬虫和接口就足够了【代码】【图】

上一篇文章，我们详细介绍了http请求的常用方法以及细节，大家可以点击：https://blog.51cto.com/u_13025170/2961690进行观看，这一篇文章让你对整个http请求有更详细的认识，两篇结合看，掌握自动化和爬虫不再是难事话不多说，我们直奔主题，上代码一、post请求及响应详解# -*- coding: utf-8 -*- #引入requests库 import requests#设置函数，抿成send_requests def send_requests():#请求地址url = ‘http://httpbin.org/post‘#...

python3爬虫之requests库基本使用【代码】

官方文档链接（中文）https://2.python-requests.org/zh_CN/latest/requests 基于 urllib3 ，python编写。安装 pip install requests （python3）anaconda 版本用pip安装要在 anaconda prompt 里打入安装命令提示Requirement already satisfied: requests in xxxxxx 表示已经安装了import requestsresponse=requests.get(‘http://www.baidu.com‘) #打印类型print(type(response)) #打印状态码print(response.status_code...

解决Python爬虫使用requests包控制台输出乱码问题【图】

输出爬去的信息为乱码！解决办法爬取下来的编码是ISO-8859-1格式，需要转化为utf-8格式，加一句response.encoding = "utf8"原文：https://www.cnblogs.com/amojury/p/9127570.html

Python爬虫之-Requests【代码】

Requests模块Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装;从而使得Pythoner进行网络请求时，变得方便了许多，使用Requests可以轻而易举的完成浏览器可有的...

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

!/usr/bin/env python # -*- coding: utf-8 -*- # 日志管理 import logging import sys reload(sys) sys.setdefaultencoding(‘utf-8‘)def getlogger(logName, logFile):logger=logging.getLogger(logName)logger.setLevel(logging.DEBUG)screenHandle = logging.StreamHandler()screenHandle.setLevel(logging.DEBUG)fileHandle = logging.FileHandler(logFile,‘a‘)fileHandle.setLevel(logging.DEBUG)formatter = logging.For...

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*- # 日志管理 import logging import sys reload(sys) sys.setdefaultencoding(utf-8)def getlogger(logName, logFile):logger=logging.getLogger(logName)logger.setLevel(logging.DEBUG)screenHandle = logging.StreamHandler()screenHandle.setLevel(logging.DEBUG)fileHandle = logging.FileHandler(logFile,a)fileHandle.setLevel(logging.DEBUG)formatter = logging.Formatter(...

详解Python之urllib爬虫、request模块和parse模块【代码】【图】

文章目录urllibrequest模块访问URLRequest类其他类parse模块解析URL转义URLrobots.txt文件（免费学习推荐：python视频教程）urlliburllib是Python中用来处理URL的工具包，源码位于/Lib/下。它包含了几个模块：用于打开及读写的urls的request模块、由request模块引起异常的error模块、用于解析urls的parse模块、用于响应处理的response模块、分析robots.txt文件的robotparser模块。注意版本差异。urllib有3个版本：Python2.X包含url...

爬虫基本流程Request和Response的介绍【图】

基于python的爬虫想要从网站上获取数据，就是从request到response的过程。我们通过伪装浏览器从而向服务器发出Request请求，服务器则会在接受信息后，作出Response回应。在上一篇我们讲解了什么是爬虫和爬虫的基本流程的介绍，今天给大家带来的就是对基本流程的详细介绍，什么是Request和Response。Request1.什么是Request？浏览器发送信息给该网址所在的服务器，这个过程就叫做HTTP Request。2.Request中包含什么？请求方式：请求...

Python爬虫：HTTP协议、Requests库【图】

HTTP协议：HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。HTTP协议对资源的操作：Requests库提供了HTTP所有的基本请求方式。官方介绍：Requests库的6个主要方法：Requests库的异常：Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。R...

首页 / 爬虫 / 爬虫 requests 模块

爬虫 requests 模块

内容导读

内容图文

简单介绍requests 模块

请求参数动态化:

动态加载案例分析

内容总结

内容备注

内容手机端

【爬虫 requests 模块】教程文章相关的互联网学习教程文章

爬虫-请求库之request【代码】

Python爬虫---requests库快速上手【代码】

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

Python爬虫之request模块【代码】

二 . 爬虫 requests模块使用和请求响应相关参数【代码】

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

python requests库中的post详解，有这一篇可以做爬虫和接口就足够了【代码】【图】

python3爬虫之requests库基本使用【代码】

解决Python爬虫使用requests包控制台输出乱码问题【图】

Python爬虫之-Requests【代码】

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

python 爬虫之requests+日志+配置文件读取+mysql入库【代码】

详解Python之urllib爬虫、request模块和parse模块【代码】【图】

爬虫基本流程Request和Response的介绍【图】

Python爬虫：HTTP协议、Requests库【图】

REQUESTS - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程