urllib2

以下是为您整理出来关于【urllib2】合集内容,如果觉得还不错,请帮忙转发推荐。

【urllib2】技术教程文章

python urllib2 – 在抓取之前等待页面完成加载/重定向?【代码】

我正在学习制作网络抓取工具,并希望抓住TripAdvisor的个人项目,使用urllib2抓取html.但是,我遇到了一个问题,使用下面的代码,我回来的html是不正确的,因为页面似乎需要一秒钟重定向(你可以通过访问网址验证这一点) – 而是我得到的代码从最初短暂出现的页面. 是否有一些行为或参数要设置以确保页面在获取网站内容之前已完全加载/重定向?import urllib2 from bs4 import BeautifulSoupbostonPage = urllib2.urlopen("http://www.tri...

python – 从使用urllib2或BeautifulSoup获取的(可能已编码的)字符串返回小写ASCII字符串【代码】

我正在使用urllib2从网页中获取数据.所有页面的内容均为英文,因此不存在处理非英文文本的问题.然而,页面是编码的,它们有时包含HTML实体,如£或版权符号等. 我想检查页面的某些部分是否包含某些关键字 – 但是,我想做一个不区分大小写的检查(出于显而易见的原因). 将返回的页面内容转换为所有小写字母的最佳方法是什么?def get_page_content_as_lower_case(url):request = urllib2.Request(url)page = urllib2.urlopen(request)temp...

python – urllib2.urlopen()缓存内容吗?

他们没有在python文档中提到这一点.最近我正在测试一个网站只是使用urllib2.urlopen()来刷新网站以提取某些内容,我注意到有时当我更新网站时,urllib2.urlopen()似乎没有得到新添加的内容.所以我想它确实在某处缓存了东西,对吧?解决方法:So I wonder it does cache stuff somewhere, right? 它没有. 如果您没有看到新数据,这可能有很多原因.出于性能原因,大多数较大的Web服务都使用服务器端缓存,例如使用Varnish和Squid等缓存代理或...

Python urllib2 HTTPBasicAuthHandler【代码】

这是代码:import urllib2 as URLdef get_unread_msgs(user, passwd):auth = URL.HTTPBasicAuthHandler()auth.add_password(realm='New mail feed',uri='https://mail.google.com',user='%s'%user,passwd=passwd)opener = URL.build_opener(auth)URL.install_opener(opener)try:feed= URL.urlopen('https://mail.google.com/mail/feed/atom')return feed.read()except:return None它工作得很好.唯一的问题是,当使用错误的用户名或密...

python仅使用urllib2获取标头【代码】

我必须使用urllib2实现仅获取标头的功能(不执行GET或POST).这是我的功能:def getheadersonly(url, redirections = True):if not redirections:class MyHTTPRedirectHandler(urllib2.HTTPRedirectHandler):def http_error_302(self, req, fp, code, msg, headers):return urllib2.HTTPRedirectHandler.http_error_302(self, req, fp, code, msg, headers)http_error_301 = http_error_303 = http_error_307 = http_error_302cookie...

Python – 手动浏览器登录后从urllib2恢复Web会话

说,我浏览到一个网站(在内部网上),需要登录才能访问内容.我将填写必填字段…例如从浏览器本身登录所需的用户名,密码和任何验证码等. 登录到网站后,登录后可以从第一页上的多个链接和标签中删除很多好东西. 现在,从这一点开始(即从浏览器登录后)..我想控制页面并从urllib2下载……比如逐页浏览,在每页上下载pdf和图像等. 我知道我们可以直接使用urllib2(或mechanize)中的所有内容(即登录页面并执行整个操作). 但是,对于某些网站来说...

python – 关闭urllib2连接【代码】

我正在使用urllib2从ftp和http服务器加载文件. 某些服务器仅支持每个IP一个连接.问题是,urllib2不会立即关闭连接.看一下示例程序.from urllib2 import urlopen from time import sleepurl = 'ftp://user:pass@host/big_file.ext'def load_file(url):f = urlopen(url)loaded = 0while True:data = f.read(1024)if data == '':breakloaded += len(data)f.close()#sleep(1)print('loaded {0}'.format(loaded))load_file(url) load_fil...

python-urllib2 HTTPPasswordMgr不起作用-凭据未发送错误【代码】

以下python curl调用具有以下成功结果:>>> import subprocess >>> args = ['curl','-H', 'X-Requested-With: Demo','https://username:password@qualysapi.qualys.com/qps/rest/3.0/count/was/webapp' ] >>> xml_output = subprocess.check_output(args).decode('utf-8')% Total % Received % Xferd Average Speed Time Time Time CurrentDload Upload Total Spent Left Speed 138 276 0 276 0...

Python urllib2.open连接被对等错误重置【代码】

我正在尝试使用python抓取页面 问题是,我不断使对等方重置Errno54连接. 当我运行此代码时出现错误-urllib2.urlopen("http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10161&langId=-1&programId=562&termId=100020629&divisionDisplayName=Stanford&departmentDisplayName=ILAC&courseDisplayName=126&sectionDisplayName=01&demoKey=d&purpose=browse")在此...

Python urllib2强制IPv4【代码】

我正在使用python运行脚本,该脚本使用urllib2从天气api抓取数据并将其显示在屏幕上.我有一个问题,当我查询服务器时,出现“没有与主机名相关联的地址”错误.我可以使用网络浏览器查看api的输出,也可以使用wget下载该文件,但是我必须强制使用IPv4才能使其正常工作.使用urllib2.urlopen时是否可以在urllib2中强制使用IPv4?解决方法:不直接,不. 所以,你可以做什么? 一种可能性是自己将主机名显式解析为IPv4,然后使用IPv4地址而不是名...

URLLIB2 - 相关标签