Python urllib3和代理
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python urllib3和代理,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1505字,纯文字阅读大概需要3分钟。
内容图文
我试图弄清楚如何使用代理和多线程.
此代码有效:
requester = urllib3.PoolManager(maxsize = 10, headers = self.headers)
thread_pool = workerpool.WorkerPool()
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()
然后在grab_wrapper中
requested_page = requester.request('GET', url, assert_same_host = False, headers = self.headers)
标题包括:Accept,Accept-Charset,Accept-Encoding,Accept-Language和User-Agent
但这在生产中不起作用,因为它必须通过代理,不需要授权.
我尝试了不同的东西(将代理传递给请求,在标题中等).唯一有效的是:
requester = urllib3.proxy_from_url(self._PROXY_URL, maxsize = 7, headers = self.headers)
thread_pool = workerpool.WorkerPool(size = 10)
thread_pool.map(grab_wrapper, [item['link'] for item in products])
thread_pool.shutdown()
thread_pool.wait()
现在,当我运行程序时,它将发出10个请求(10个线程),然后……停止.没有错误,没有任何警告.这是我可以绕过代理的唯一方法,但似乎不可能一起使用proxy_from_url和WorkerPool.
有关如何将这两者合并为工作代码的任何想法?由于时间限制,我宁愿避免将其重写为杂乱无章等
问候
解决方法:
看来你丢弃了对thread_pool.map()的调用结果
尝试将其分配给变量:
requester = urllib3.proxy_from_url(PROXY, maxsize=7)
thread_pool = workerpool.WorkerPool(size=10)
def grab_wrapper(url):
return requester.request('GET', url)
results = thread_pool.map(grab_wrapper, LINKS)
thread_pool.shutdown()
thread_pool.wait()
注意:
如果您使用的是3.2或更高版本的python,则可以使用concurrent.futures.ThreadPoolExecutor.它的引用类似于workerpool,但包含在标准库中.
内容总结
以上是互联网集市为您收集整理的Python urllib3和代理全部内容,希望文章能够帮你解决Python urllib3和代理所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。