首页 / PYTHON / Python urllib3和代理

Python urllib3和代理

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python urllib3和代理，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1505字，纯文字阅读大概需要3分钟。

内容图文

我试图弄清楚如何使用代理和多线程.

此代码有效：

requester = urllib3.PoolManager(maxsize = 10, headers = self.headers)
thread_pool = workerpool.WorkerPool()

thread_pool.map(grab_wrapper, [item['link'] for item in products])

thread_pool.shutdown()
thread_pool.wait()

然后在grab_wrapper中

requested_page = requester.request('GET', url, assert_same_host = False, headers = self.headers)

标题包括：Accept,Accept-Charset,Accept-Encoding,Accept-Language和User-Agent

但这在生产中不起作用,因为它必须通过代理,不需要授权.

我尝试了不同的东西(将代理传递给请求,在标题中等).唯一有效的是：

requester = urllib3.proxy_from_url(self._PROXY_URL, maxsize = 7, headers = self.headers)
thread_pool = workerpool.WorkerPool(size = 10)

thread_pool.map(grab_wrapper, [item['link'] for item in products])

thread_pool.shutdown()
thread_pool.wait()

现在,当我运行程序时,它将发出10个请求(10个线程),然后……停止.没有错误,没有任何警告.这是我可以绕过代理的唯一方法,但似乎不可能一起使用proxy_from_url和WorkerPool.

有关如何将这两者合并为工作代码的任何想法？由于时间限制,我宁愿避免将其重写为杂乱无章等

问候

解决方法:

看来你丢弃了对thread_pool.map()的调用结果
尝试将其分配给变量：

requester = urllib3.proxy_from_url(PROXY, maxsize=7)
thread_pool = workerpool.WorkerPool(size=10)


def grab_wrapper(url):
    return requester.request('GET', url)


results = thread_pool.map(grab_wrapper, LINKS)

thread_pool.shutdown()
thread_pool.wait()

注意：
如果您使用的是3.2或更高版本的python,则可以使用concurrent.futures.ThreadPoolExecutor.它的引用类似于workerpool,但包含在标准库中.

内容总结

以上是互联网集市为您收集整理的Python urllib3和代理全部内容，希望文章能够帮你解决Python urllib3和代理所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/799632.html

来源：【匿名】

【上一篇】有没有人真正知道如何在Python中确定集合的顺序？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python urllib3和代理】教程文章相关的互联网学习教程文章

【Python】selenium使用代理模式【代码】

python中利用selenium调用Chrome浏览器做代理模式访问的时候，发现设置options.add_argument(‘--proxy-server=http://XXX.XXX.XXX.XXX:XX‘)这句话并没什么作用。下面给出一个我这里测试能正常使用的例子：from selenium import webdriveroptions = webdriver.ChromeOptions() desired_capabilities = webdriver.DesiredCapabilities.INTERNETEXPLORER.copy() desired_capabilities[‘proxy‘] = {"httpProxy": ‘http://XXX.XXX....

centos7生产环境IP代理池（python）【图】

最近在研究爬虫，需要在前面部署IP代理池，于是在开源中国找到proxy pool。可以自动抓取国内几个免费IP代理网站的IP，并实时校验IP的可用性，数据库为SSDB。IP代理池网站：http://www.data5u.com/http://www.data5u.com/free/http://www.data5u.com/free/gngn/index.shtmlhttp://www.data5u.com/free/gnpt/index.shtmlhttp://www.66ip.cn/http://www.ip181.com/http://www.xicidaili.com/nnhttp://www.xicidaili.com/nthttp://www....

仅用50行Python代码实现一个简单的代理服务器【代码】

之前遇到一个场景是这样的：我在自己的电脑上需要用mongodb图形客户端，但是mongodb的服务器地址没有对外网开放，只能通过先登录主机A，然后再从A连接mongodb服务器B。本来想通过ssh端口转发的，但是我没有从机器A连接ssh到B的权限。于是就自己用python写一个。原理很简单。1.开一个socket server监听连接请求2.每接受一个客户端的连接请求，就往要转发的地址建一条连接请求。即client->proxy->forward。proxy既是socket服务端(监...

Python使用代理的方法【代码】【图】

我们在做爬虫的过程中经常会遇到这样的情况：最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden；出现这样的原因往往是网站采取了一些反爬虫的措施，比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了某个阈值，那么服务器会直接拒绝服务，返回一些错误信息。这时候，代理就派上用场了。国内的免费代理网站：西刺代理快代理免费代理全网代理ip接下来看如...

python爬虫如何抓取代理服务器【代码】

一年前突然有个灵感，想搞个强大的网盘搜索引擎，但由于大学本科学习软件工程偏嵌入式方向，web方面的能力有点弱，不会jsp，不懂html，好久没有玩过sql，但就是趁着年轻人的这股不妥协的劲儿，硬是把以前没有学习的全部给学了一遍，现在感觉web原来也就那么回事。好了，废话就不说了，看到本文的读者，可以先看看我做的东西：去转盘网：www.quzhuanpan.comok搜搜：www.oksousou.com（这个是磁力，顺便拿出来给大伙观赏）言归正传，...

python 代理类型说明【代码】

环境 python 2.7python 代理类型选择python代理设置通常如下：proxies = {"http": "http://10.10.1.10:3128","https": "http://10.10.1.10:1080", }在HTTP 和 HTTPS 两种类型中，HTTPS类型的ip必须对应如："https" : "https...", 像如："http" : "https..."这样设置是错误的。测试代码实例，主要以下有4种情况：1.requests库代理代码入下：import requestsproxies = {"http" : "http://122.114.31.177:808"} # 1. 成功 proxies = ...

python asyncio异步代理池【代码】【图】

使用python asyncio实现了一个异步代理池，根据规则爬取代理网站上的免费代理，在验证其有效后存入redis中，定期扩展代理的数量并检验池中代理的有效性，移除失效的代理。同时用aiohttp实现了一个server，其他的程序可以通过访问相应的url来从代理池中获取代理。源码Github环境Python 3.5+RedisPhantomJS(可选)Supervisord(可选)因为代码中大量使用了asyncio的async和await语法，它们是在Python3.5中才提供的，所以最好使用Python3...

50行python代码实现个代理server（你懂的）【图】

之前遇到一个场景是这种：我在自己的电脑上须要用mongodb图形client，可是mongodb的server地址没有对外网开放，仅仅能通过先登录主机A，然后再从A连接mongodbserverB。本来想通过sshport转发的，可是我没有从机器A连接ssh到B的权限。于是就自己用python写一个。原理非常easy。1.开一个socket server监听连接请求2.每接受一个客户端的连接请求，就往要转发的地址建一条连接请求。即client->proxy->forward。proxy既是socket服务端(监...

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理【代码】

1.设置用户代理默认情况下，urliib2使用python-urllib、2.7 作为用户代理下载网页内容，其中2.7是python的版本号。为避免一些网站禁封这个默认的用户代理，确保下载更加可靠，我们需要控制用户代理的设定。下面代码对download函数设定了一个名称为 “wswp” 的用户代理。import urllib2def download(url,user_agent=‘wswp‘, num_retries=2): print ‘downloading:‘,url headers={‘User-agent‘:user_agent} request=u...

python 爬取网页内的代理服务器列表（需调整优化）【代码】

1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3# @Date : 2017-08-30 20:38:23 4# @Author : EnderZhou (zptxwd@gmail.com) 5# @Link : http://www.cnblogs.com/enderzhou/ 6# @Version : $Id$ 7 8import requests9from bs4 import BeautifulSoup as bs 1011# 这种爬取网页内容中的列表的方式复用性差，不同的网站需要针对性的修改。每次使用均需要填写更换header头。后续将编写适用性更强的版本。1213 url = ‘http:/...

举例讲解Python设计模式编程的代理模式与抽象工厂模式

代理模式 Proxy模式是一种常用的设计模式，它主要用来通过一个对象(比如B)给一个对象(比如A) 提供'代理'的方式方式访问。比如一个对象不方便直接引用，代理就在这个对象和访问者之间做了中介你先设想：一个对象提供rgb三种颜色值，我想获得一个对象的rgb三种颜色，但是我不想让你获得蓝色属性，怎么办？class Proxy(object):def __init__(self, subject):self.__subject = subject# 代理其实本质上就是属性的委托def __getattr__(...

Python设计模式之代理模式实例

翻墙常用的方式就是使用代理（Proxy），其基本过程如下：浏览器<-->代理服务器<-->服务器如果浏览器请求不到服务器，或者服务器无法响应浏览器，我们可以设定将浏览器的请求传递给代理服务器，代理服务器将请求转发给服务器。然后，代理服务器将服务器的响应内容传递给浏览器。当然，代理服务器在得到请求或者响应内容的时候，本身也可以做些处理，例如缓存静态内容以加速，或者说提取请求内容或者响应内容做些正当或者不正当的分...

Python设计模式之代理模式【代码】【图】

代理模式目录代理模式概念实现：代理有什么用？代理和门面区别常见问题代理模式概念代理就是一个中间系统代理模式关键在于对外屏蔽真实对象通过代购可以类比一下演员与经纪人的例子来理解一下： class Actor(object):def __init__(self):self.is_busy = Falsedef occupied(self):self.is_busy = Trueprint(type(self).__name__, '正在拍电影')def available(self):self.is_busy = Falseprint(type(self).__name__, '正在休息')...

python – 将原始SMTP消息发送到AMQP代理

我正在寻找一种方法来获取大量的入站SMTP消息并将它们放到AMQP代理上以进行进一步的路由和处理.邮件实际上不会以邮箱结尾,而是将SMTP用作邮件网关. 我在Python中编写了一个Postfix后队列内容过滤器,它将入站SMTP消息丢弃到RabbitMQ代理上.这很有效 – 我通过队列得到原始消息,消费者可以很好地接收它.问题是AMQP连接是用每条消息创建和拆除的……每次都会从头开始重新执行内容过滤器脚本.我想这最终会成为一个性能问题. 如果我可以...

Python爬虫抓取代理IP并检验可用性的实例

这篇文章主要介绍了关于Python爬虫抓取代理IP并检验可用性的实例，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下经常写爬虫，难免会遇到ip被目标网站屏蔽的情况，银次一个ip肯定不够用，作为节约的程序猿，能不花钱就不花钱，那就自己去找吧，这次就写了下抓取西刺代理上的ip，但是这个网站也反爬！！！至于如何应对，我觉得可以通过增加延时试试，可能是我抓取的太频繁了，所以被封IP了。但是，还是可以去IP巴士...

首页 / PYTHON / Python urllib3和代理

Python urllib3和代理

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python urllib3和代理】教程文章相关的互联网学习教程文章

【Python】selenium使用代理模式【代码】

centos7生产环境IP代理池（python）【图】

仅用50行Python代码实现一个简单的代理服务器【代码】

Python使用代理的方法【代码】【图】

python爬虫如何抓取代理服务器【代码】

python 代理类型说明【代码】

python asyncio异步代理池【代码】【图】

50行python代码实现个代理server（你懂的）【图】

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理【代码】

python 爬取网页内的代理服务器列表（需调整优化）【代码】

举例讲解Python设计模式编程的代理模式与抽象工厂模式

Python设计模式之代理模式实例

Python设计模式之代理模式【代码】【图】

python – 将原始SMTP消息发送到AMQP代理

Python爬虫抓取代理IP并检验可用性的实例

PYTHON - 相关标签

URLLIB - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程