PYTHON3 URLLIB 技术教程文章

python使用urllib2模块获取gravatar头像实例

Gravatar注册地址: https://en.gravatar.com/代码如下:"""`Gravatar <https://en.gravatar.com/site/implement/>`_""" # import code for encoding urls and generating md5 hashesimport urllib2, hashlib # Make response slow if verify whether default avatar or not.# So let js do it, see `/static/js/article.js`.def gravatar_url(email, size=40, verify_default=False): """Construct the gravatar url.""" grav...

python33urllib2使用方法细节讲解

Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用下面的方式代码如下:import urllib2 enable_proxy = Trueproxy_handler = urllib2.ProxyHandler({"http" : http://some-proxy.com:8080})null_proxy_handler = urllib2.ProxyHandler({}) if enable_proxy: opener = urllib2.build_opener(proxy_handler)else: opener = urllib2.build_o...

python3使用urllib示例取googletranslate(谷歌翻译)

代码如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-# File Name : gt1.py# Purpose :# Creation Date : 1390366260# Last Modified : Wed 22 Jan 2014 06:14:11 PM CST# Release By : Doom.zhou import urllib.requestimport sys typ = sys.getfilesystemencoding() def translate(querystr, to_l="zh", from_l="en"): for google tranlate by doom C_agent = {User-Agent: "Mozilla/5.0 (X11; Linux x86_64) Appl...

python使用urllib模块和pyquery实现阿里巴巴排名查询

urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法代码如下:class ProxyScrapy(object): def __init__(self): self.proxy_robot = ProxyRobot() self.current_proxy = None self.cookie = cookielib.CookieJar() def __builder_proxy_cookie_opener(self): cookie_handler = urllib2.HTTPCookieProcessor(self.cookie) handlers = ...

python的urllib模块显示下载进度示例

代码如下: def report_hook(count, block_size, total_size):... print %02d%%%(100.0 * count * block_size/ total_size)... urllib.urlretrieve("http://sports.sina.com.cn/", reporthook= report_hook)00%01%03%...

python通过urllib2爬网页上种子下载示例

通过urllib2、re模块抓种子 思路 1.用程序登录论坛(如果需要登录才能访问的版块) 2.访问指定版块 3.遍历帖子(先取指定页,再遍历页面所有帖子的url) 4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子代码如下:import urllibimport urllib2import cookielibimport reimport sysimport os # site is website address | fid is part idsite = "http://xxx.yyy.z...

urllib2自定义opener详解

urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。代码如下:build_opener([handler1 [ handler2, ... ]]) 参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。 build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。 如果要修改http报头,可以用:代码如下:import urllib2opener = ...

python网页请求urllib2模块简单封装代码

对python网页请求模块urllib2进行简单的封装。 例子:代码如下:#!/usr/bin/python#coding: utf-8import base64import urllibimport urllib2import time class SendRequest: This class use to set and request the http, and get the info of response. e.g. set Authorization Type, request tyep.. e.g. get html content, state code, cookie.. SendRequest(http://10.75.0.103:8850/2/photos/square/type.json, ...

Python中使用urllib2防止302跳转的代码例子

说明:python的urllib2获取网页(urlopen)会自动重定向(301,302)。但是,有时候我们需要获取302,301页面的状态信息。就必须获取到转向前的调试信息。 下面代码将可以做到避免302重定向到新的网页#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:states_code.pyimport urllib2class RedirctHandler(urllib2.HTTPRedirectHandler):"""docstring for RedirctHandler"""def http_error_301(self, req, fp, code...

python中使用urllib2伪造HTTP报头的2个方法

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行 下面,我们将使用urllib2的header部分伪造报头来实现采集信息 方法1、#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.pyimport urllib2 import sys#抓取网页内容-发送报头-1 url= "http://www.gxlcms.com" send_headers = {Host:www.gxlcms.com,User-Agent:Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/...

Python库urllib与urllib2主要区别分析

作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版。今天看到老外写的一篇《Python: difference between urllib and urllib2》才明白其中的区别 You might be intrigued by the existence of two separate URL modules in Python -urllib and urllib2. Even more intriguing: they are not alternatives for each other. So what is the difference between urllib and urllib2, and do we need them both? 你...

Python使用urllib模块的urlopen超时问题解决方法

在新的公司开始上班,今天工作的主题内容是市场部门需要抓取一些论坛用户的邮箱,以便发送营销邮件。 于是用了一个python脚本来执行,前面抓了几个都没有什么问题,后来碰到一个论坛,在执行urlopen的地方总是提示超时,百度了一下,因为我使用的是urllib不是urllib2,所以无法直接在urlopen里面加timeout参数,只能是设置全局脚本的超时时间 首先:代码如下: import socket然后:代码如下: socket.setdefaulttimeout(60)设置全局的...

python中urllib模块用法实例详解

本文实例讲述了python中urllib模块用法。分享给大家供大家参考。具体分析如下: 一、问题: 近期公司项目的需求是根据客户提供的api,我们定时去获取数据, 之前的方案是用php收集任务存入到redis队列,然后在linux下做一个常驻进程跑某一个php文件, 该php文件就一个无限循环,判断redis队列,有就执行,没有就break. 二、解决方法: 最近刚好学了一下python, python的urllib模块或许比php的curl更快,而且简单. 贴一下代码代码如...

python通过urllib2获取带有中文参数url内容的方法

本文实例讲述了python通过urllib2获取带有中文参数url内容的方法。分享给大家供大家参考。具体如下: 对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf-8编码,然后使用urllib2.quote方法对参数进行url编码后传递。content = u你好 jb51.net content = content.encode(utf-8) content = urllib2.quote(content) api_url = http://www.gxlcms.com/q=%s%content res = urllib2.urlopen(...

介绍Python的Urllib库的一些高级用法【图】

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化 了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多...

Python的Urllib库的基本使用教程【图】

1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我 们就写个例子来扒一个网页下来。import urllib2response = urllib2.urlopen("http://www.baidu.com") ...

python基于urllib实现按照百度音乐分类下载mp3的方法

本文实例讲述了python基于urllib实现按照百度音乐分类下载mp3的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/env python #-*- coding: utf-8 -*- import urllib import re baseurl = "http://music.baidu.com" url = "http://music.baidu.com/search/tag?key=经典流行" html = urllib.urlopen(url).read() uri = re.findall(r/song/\d+, html, re.M) lst = [] for i in uri:link = baseurl+i+"/download"lst.insert(...

Python使用urllib2模块实现断点续传下载的方法

本文实例讲述了Python使用urllib2模块实现断点续传下载的方法。分享给大家供大家参考。具体分析如下: 在使用HTTP协议进行下载的时候只需要在头上设置一下Range的范围就可以进行断点续传下载,当然,首先服务器需要支持断点续传。 利用Python的urllib2模块完成断点续传下载的例子:#!/usr/bin/python # -*- coding: UTF-8 -* Created on 2013-04-15 Created by RobinTang A demo for Resuming Transfer import urllib2 r...

深入解析Python中的urllib2模块

Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。 Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 HTTP 的返回码Debug LogProxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境...

使用Python的urllib2模块处理url和图片的技巧两则

获取带有中文参数的url内容 对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf- 8编码,然后使用urllib2.quote方法对参数进行url编码后传递。content = u你好 sharejs.com content = content.encode(utf-8) content = urllib2.quote(content) api_url = http://www.sharejs.com/q=%s%content res = urllib2.urlopen(api_url) 获取远程图片的大小和尺寸 这段代码通过urllib2打开远程图片...