首页 / 爬虫 / Python爬虫之Requests模块（二）

Python爬虫之Requests模块（二）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬虫之Requests模块（二），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4821字，纯文字阅读大概需要7分钟。

内容图文

一、proxy代理和忽略CA证书

1、了解代理以及proxy代理参数的使用

proxy代理参数通过指定代理ip，让代理ip对应的正向代理服务器转发我们发送的请求，那么我们首先来了解一下代理ip以及代理服务器

（1）理解使用代理的过程

代理ip是一个ip，指向的是一个代理服务器
代理服务器能够帮我们向目标服务器转发请求

（2）正向代理和反向代理的区别

前边提到proxy参数指定的代理ip指向的是正向的代理服务器，那么相应的就有反向服务器；现在来了解一下正向代理服务器和反向代理服务器的区别

从发送请求的一方的角度，来区分正向或反向代理
为浏览器或客户端（发送请求的一方）转发请求的，叫做正向代理【浏览器知道最终处理请求的服务器的真实ip地址，例如VPN】
不为浏览器或客户端（发送请求的一方）转发请求、而是为最终处理请求的服务器转发请求的，叫做反向代理【浏览器不知道服务器的真实地址，例如nginx】

（3）代理ip（代理服务器）的分类

①、根据代理ip的匿名程度，代理IP可以分为下面三类：

透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP

匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。目标服务器接收到的请求头如下：

REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP

高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。毫无疑问使用高匿代理效果最好。目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

②、根据网站所使用的协议不同，需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为：

http代理：目标url为http协议
https代理：目标url为https协议
socks隧道代理（例如socks5代理）等：
①、socks 代理只是简单地传递数据包，不关心是何种应用协议（FTP、HTTP和HTTPS等）。
②、socks 代理比http、https代理耗时少。
③、socks 代理可以转发http和https的请求

（4）proxies代理参数的使用

为了让服务器以为不是同一个客户端在请求；为了防止频繁向一个域名发送请求被封ip，所以我们需要使用代理ip；那么我们接下来要学习requests模块是如何使用代理ip的

用法：

response = requests.get(url, proxies=proxies)

proxies的形式：字典

proxies = { 
    "http": "http://12.34.56.79:9527", 
    "https": "https://12.34.56.79:9527", 
}

注意：如果proxies字典中包含有多个键值对，发送请求时将按照url地址的协议来选择使用相应的代理ip

2、使用verify参数忽略CA证书

在使用浏览器上网的时候，有时能够看到下面的提示

原因：该网站的CA证书没有经过【受信任的根证书颁发机构】的认证
关于CA证书以及受信任的根证书颁发机构点击了解更多，

①、运行代码查看代码中向不安全的链接发起请求的效果

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/"
response = requests.get(url)

运行结果:

②、解决方案

为了在代码中能够正常的请求，我们使用verify=False参数，此时requests模块发送请求将不做CA证书的验证：verify参数能够忽略CA证书的认证

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/" 
response = requests.get(url,verify=False)

二、requests模块发送post请求

思考：哪些地方我们会用到POST请求？

登录注册（在web工程师看来POST 比 GET 更安全，url地址中不会暴露用户的账号密码等信息）
需要传输大文本内容的时候（ POST 请求对数据长度没有要求）
所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

（1）requests发送post请求的方法

response = requests.post(url, data)
data参数接收一个字典
requests模块发送post请求函数的其它参数和发送get请求的参数完全一致

（2）POST请求练习

下面面我们通过腾讯翻译的例子看看post请求如何使用：地址：https://fanyi.qq.com/

①、思路分析

抓包确定请求的url地址
确定请求的参数
确定返回数据的位置
模拟浏览器获取数据

②、抓包分析的结论

url地址：https://fanyi.qq.com/api/translate
请求方法：POST
请求所需参数：

data = {
    'source': 'auto', # 表示被翻译的语言是自动识别
    'target': 'auto', # 表示翻译后的语言是自动识别
    'sourceText': '字典' # 要翻译的中文字符串
}

pc端User-Agent:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36

4.2.4 代码实现

import requests
import json

class King(object):

    def __init__(self, word):
        self.url = 'https://fanyi.qq.com/api/translate'
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.2261 SLBChan/10 "
        }
        self.data = {
            "source": "auto",
            "target": "auto",
            "sourceText": word
        }

    def get_data(self):
        # 使用post方法发送一个post请求，data为请求体的字典
        response = requests.post(self.url, data=self.data, headers=self.headers)
        return response.content

    def parse_data(self, date):
        # 将loads方法将json字符串转换为python字典
        dict_data = json.loads(date)
        # try:
        # dict.map
        # except:
        print(dict_data['translate']['records'][0]['targetText'])

    def run(self):
        # 编写爬虫逻辑
        # url
        # headers
        # data字典
        # 发送请求获取响应
        response = self.get_data()
        # print(response)
        # 数据解析
        self.parse_data(response)

if __name__ == '__main__':
    # 循环输入需要翻译的中文、英文单词
    while True:
        word = input("请输入要翻译的中文或英文单词：")
        king = King(word)
        king.run()

运行结果：

内容总结

以上是互联网集市为您收集整理的Python爬虫之Requests模块（二）全部内容，希望文章能够帮你解决Python爬虫之Requests模块（二）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/595493.html

来源：【匿名】

【上一篇】你知道学习python爬虫需要掌握的库吗？【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python爬虫之Requests模块（二）】教程文章相关的互联网学习教程文章

Python 爬虫 --- urllib【代码】

对于互联网数据，Python 有很多处理网络协议的工具，urllib 是很常用的一种。一、urllib.request，request 可以很方便的抓取 URL 内容。urllib.request.urlopen(url)　返回请求 url 后的二进制对象·　　　　参数：url=‘http://www.baidu.com’，请求的 url。　　　　　　　data=None，请求的数据，可有可无，bytes 类型。　　　　　　　timeout=3，设置访问超时时间，可有可无　　　　　　　cafile=None，HTTPS 请求 CA 证书　　...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python 【爬虫】【图】

爬虫的工作原理首先，爬虫可以模拟浏览器去向服务器发出请求；其次，等服务器响应后，爬虫程序还可以代替浏览器帮我们解析数据；接着，爬虫可以根据我们设定的规则批量提取相关数据，而不需要我们去手动提取；最后，爬虫可以批量地把数据存储到本地爬虫的步骤第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步：提...

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页【图】

0元免费IP列表首先分享一波：免费代理由第三方服务器提供，IP质量不高。IP地址端口号匿名程度支持协议地区稳定时间更新时间FREE 114.233.51.111 4257 超高HTTP江苏省泰州市5-1440分钟2020/10/18 11:00:01FREE 49.71.99.110 4226 超高HTTP江苏省扬州市5-1440分钟2020/10/18 10:00:01FREE 183.4.66.22 4205 超高HTTP广东省江门市5-1440分钟2020/10/18 09:00:01FREE 119.7.231.13 64261 超高HTTP四川省雅安市5-1440分钟2020/10/...

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。\小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是：打开ch...

python：爬虫1——实战（下载一张图片、用Python模拟浏览器，通过在线的有道词典来对文本翻译）【代码】

一、下载一只猫import urllib.requestresponse = urllib.request.urlopen("http://cdn.duitang.com/uploads/item/201111/24/20111124222137_wHYwc.jpg") cat_img = response.read()with open(‘cat_0.jpeg‘, ‘wb‘) as f:f.write(cat_img) urlopen()中的url可以是string，也可以是request object，因此可以是：import urllib.requestreq = urllib.request.Request("http://cdn.duitang.com/uploads/item/201111/24/2011112422213...

python 爬虫--同花顺-使用代理

1.http://www.goubanjia.com/ 在上面获取使用http协议的公网IP和端口参考：https://blog.csdn.net/qq_23934063/article/details/790639372. 关键代码如下：#python3# coding: utf-8from bs4 import BeautifulSoupimport requestsimport jsonimport timeimport randomcodelist = []for zxcode000 in range(100,999): code000 = ‘000‘ + str(zxcode000) codelist.append(code000)for zhongxiaocode in range(10,100): ...

Python爬虫：BeautifulSoup用法总结【代码】【图】

原文BeautifulSoup是一个解析HTML或XML文件的第三方库。HTML或XML文件可以用DOM模型解释。一般包含三种节点：元素节点 - 通常指HTML 或 XML的标签文本节点 - 标签内部的文本内容属性节点 - 每个标签的属性BeautifulSoup库可以对HTML或XML文件解析，查找到一个或多个标签元素，并获取每个标签里的文本和属性。BeautifulSoup很好的特性是它接受一个str或byte对象后会对编码自动检测，并对当前文档编码并转换成Unicode编码。这样可以不...

python爬虫---beautifulsoup（2）

之前我们使用的是python的自带的解析器html.parser。官网上面还有一些其余的解析器，我们分别学习一下。解析器使用方法优点缺点htm.parserBeautifulSoup(markup,‘html.parser‘)1、python自带的2、解析速度过得去3、容错强2.7之前的版本，和3.3之前不包括2.7的都不支持lxml`s HTML parserBeautifulSoup(markup,‘lxml‘)1、非常快2、容错强要安装C语言库lxml`s xml parser　BeautifulSoup(markup,[‘lxml‘,‘xml‘])BeautifulSou...

python爬虫 Selenium库学习【代码】

一、自动化测试工具，支持多种浏览器，解决JS渲染问题二、安装pip3 install Selenium三、操作介绍（因为是学习别人的课程为了尊重知识产权，部分代码就不显示了）1驱动浏览器browser = webdriver.Chrome()try: 　　　browser.get(‘www.sina.com‘)#上网 2查找元素一种方法：browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_id()browser.find_element_by_xpath()browser.find_elemen...

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。headers = {‘User-A...

Python 爬虫实例【代码】【图】

下面是我写的一个简单爬虫实例1.定义函数读取html网页的源代码2.从源代码通过正则表达式挑选出自己需要获取的内容3.序列中的htm依次写到d盘#!/usr/bin/python import re import urllib.request#定义函数读取html网页的源代码 def getHtml(url):page = urllib.request.urlopen(url)html = page.read()return html#从源代码通过正则表达式挑选出自己需要获取的内容 def getImg(html):reg = r‘href="(.*?\.htm)"‘imgre = re.compile...

Python爬虫爬取房天下数据-入MySql数据库【代码】【图】

Python爬取房天下某城市数据随着互联网时代的兴起，技术日新月异，掌握一门新技术对职业发展有着很深远的意义，做的第一个demo，以后会在爬虫和数据分析方便做更深的研究，本人不会做详细的文档，有哪里不足的地方，希望大牛们指点讲解。废话不多说，上代码。你需要的技能：（1）对前端知识熟悉会调试浏览器（2）熟练python基础知识，对一些常用的库熟练掌握（3）掌握一般关系型数据库import requests as req import time import p...

Python爬虫_三种数据解析方式【代码】

正则解析单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W : 非\w\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S : 非空白数量修饰：* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} ：固定m次 hello{3,}{m,} ：至少m次{m,n} ：m-n次边界：$ : 以某某结尾 ^ : 以某某开头分组：(ab) 贪婪模式：...

首页 / 爬虫 / Python爬虫之Requests模块（二）

Python爬虫之Requests模块（二）

内容导读

内容图文

一、proxy代理和忽略CA证书

1、了解代理以及proxy代理参数的使用

（1） 理解使用代理的过程

（2）正向代理和反向代理的区别

（3）代理ip（代理服务器）的分类

①、根据代理ip的匿名程度，代理IP可以分为下面三类：

②、根据网站所使用的协议不同，需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为：

（4）proxies代理参数的使用

2、使用verify参数忽略CA证书

①、运行代码查看代码中向不安全的链接发起请求的效果

②、解决方案

二、requests模块发送post请求

（1）requests发送post请求的方法

（2）POST请求练习

①、思路分析

②、抓包分析的结论

4.2.4 代码实现

内容总结

内容备注

内容手机端

【Python爬虫之Requests模块（二）】教程文章相关的互联网学习教程文章

REQUESTS - 相关标签

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

（1）理解使用代理的过程