urllib2

以下是为您整理出来关于【urllib2】合集内容,如果觉得还不错,请帮忙转发推荐。

【urllib2】技术教程文章

Python使用urllib2获取网络资源实例讲解

这是具有利用不同协议获取URLs的能力,他同样提供了一个比较复杂的接口来处理一般情况,例如:基础验证,cookies,代理和其他。它们通过handlers和openers的对象提供。urllib2支持获取不同格式的URLs(在URL的":"前定义的字串,例如:"ftp"是"ftp:python.ort/"的前缀),它们利用它们相关网络协议(例如FTP,HTTP)进行获取。这篇教程关注最广泛的应用--HTTP。对于简单的应用,urlopen是非常容易使用的。但当你在打开HTTP的URLs时遇到错误或...

Python标准库urllib2的一些使用细节总结

Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。 1.Proxy 的设置 2.Timeout 设置 3.在 HTTP Request 中加入特定的 Header 4.Redirect 5.Cookie 6.使用 HTTP 的 PUT 和 DELETE 方法 7.得到 HTTP 的返回码 8.Debug Log Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明...

零基础写python爬虫之使用urllib2组件抓取网页内容【图】

版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。 它以urlopen函数的形式提供了一个非常简单的接口。最简单的...

零基础写python爬虫之urllib2使用指南【图】

前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。 1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。 新建test14来实现一个简单的代理Demo:代码如下: import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : http://some-proxy.com:8080}) null_proxy_handler = urllib2.Proxy...

Python中urllib2模块的8个使用细节分享

Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 库的使用细节。 1 Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy,而不受环境变量的影响,可以使用下面的方式代码如下: import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : http...

python使用urllib2提交httppost请求的方法

本文实例讲述了python使用urllib2提交http post请求的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/python #coding=utf-8 import urllib import urllib2 def post(url, data): req = urllib2.Request(url) data = urllib.urlencode(data) #enable cookie opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) response = opener.open(req, data) return response.read() def main(): posturl = "http...

Pythonurllib、urllib2、httplib抓取网页代码实例

使用urllib2,太强大了 试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了 包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理#!/usr/bin/python # -*- coding:utf-8 -*- # urllib2_test.py # author: wklken # 2012-03-17 wklken@yeah.netimport urllib,urllib2,cookielib,socketurl = "http://www.testurl....." #change yourself #最简单方式 ...

python通过urllib2爬网页上种子下载示例

通过urllib2、re模块抓种子 思路 1.用程序登录论坛(如果需要登录才能访问的版块) 2.访问指定版块 3.遍历帖子(先取指定页,再遍历页面所有帖子的url) 4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子代码如下:import urllibimport urllib2import cookielibimport reimport sysimport os # site is website address | fid is part idsite = "http://xxx.yyy.z...

Python中使用urllib2防止302跳转的代码例子

说明:python的urllib2获取网页(urlopen)会自动重定向(301,302)。但是,有时候我们需要获取302,301页面的状态信息。就必须获取到转向前的调试信息。 下面代码将可以做到避免302重定向到新的网页#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:states_code.pyimport urllib2class RedirctHandler(urllib2.HTTPRedirectHandler):"""docstring for RedirctHandler"""def http_error_301(self, req, fp, code...

python中使用urllib2伪造HTTP报头的2个方法

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行 下面,我们将使用urllib2的header部分伪造报头来实现采集信息 方法1、#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.pyimport urllib2 import sys#抓取网页内容-发送报头-1 url= "http://www.gxlcms.com" send_headers = {Host:www.gxlcms.com,User-Agent:Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/...

URLLIB2 - 相关标签