首页 / PYTHON / python3 抓取网页资源的 N 种方法

python3 抓取网页资源的 N 种方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python3 抓取网页资源的 N 种方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3760字，纯文字阅读大概需要6分钟。

内容图文

import urllib.request
response = urllib.request.urlopen(‘http://python.org/‘)
html = response.read()

2、使用 Request

import urllib.request

req = urllib.request.Request(‘http://python.org/‘)
response = urllib.request.urlopen(req)
the_page = response.read()

3、发送数据

#! /usr/bin/env python3

import urllib.parse
import urllib.request

url = ‘http://localhost/login.php‘
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘
values = {
          ‘act‘ : ‘login‘,
          ‘login[email]‘ : ‘yzhang@i9i8.com‘,
          ‘login[password]‘ : ‘123456‘
         }

data = urllib.parse.urlencode(values)
req = urllib.request.Request(url, data)
req.add_header(‘Referer‘, ‘http://www.python.org/‘)
response = urllib.request.urlopen(req)
the_page = response.read()

print(the_page.decode("utf8"))

4、发送数据和header

#! /usr/bin/env python3

import urllib.parse
import urllib.request

url = ‘http://localhost/login.php‘
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘
values = {
          ‘act‘ : ‘login‘,
          ‘login[email]‘ : ‘yzhang@i9i8.com‘,
          ‘login[password]‘ : ‘123456‘
         }
headers = { ‘User-Agent‘ : user_agent }

data = urllib.parse.urlencode(values)
req = urllib.request.Request(url, data, headers)
response = urllib.request.urlopen(req)
the_page = response.read()

print(the_page.decode("utf8"))

5、http 错误

#! /usr/bin/env python3

import urllib.request

req = urllib.request.Request(‘http://www.python.org/fish.html‘)
try:
    urllib.request.urlopen(req)
except urllib.error.HTTPError as e:
    print(e.code)
    print(e.read().decode("utf8"))

6、异常处理1

#! /usr/bin/env python3

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
req = Request("http://twitter.com/")
try:
    response = urlopen(req)
except HTTPError as e:
    print(‘The server couldn\‘t fulfill the request.‘)
    print(‘Error code: ‘, e.code)
except URLError as e:
    print(‘We failed to reach a server.‘)
    print(‘Reason: ‘, e.reason)
else:
    print("good!")
    print(response.read().decode("utf8"))

7、异常处理2

#! /usr/bin/env python3

from urllib.request import Request, urlopen
from urllib.error import  URLError
req = Request("http://twitter.com/")
try:
    response = urlopen(req)
except URLError as e:
    if hasattr(e, ‘reason‘):
        print(‘We failed to reach a server.‘)
        print(‘Reason: ‘, e.reason)
    elif hasattr(e, ‘code‘):
        print(‘The server couldn\‘t fulfill the request.‘)
        print(‘Error code: ‘, e.code)
else:
    print("good!")
    print(response.read().decode("utf8"))

8、HTTP 认证

#! /usr/bin/env python3

import urllib.request

# create a password manager
password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()

# Add the username and password.
# If we knew the realm, we could use it instead of None.
top_level_url = "https://cms.tetx.com/"
password_mgr.add_password(None, top_level_url, ‘yzhang‘, ‘cccddd‘)

handler = urllib.request.HTTPBasicAuthHandler(password_mgr)

# create "opener" (OpenerDirector instance)
opener = urllib.request.build_opener(handler)

# use the opener to fetch a URL
a_url = "https://cms.tetx.com/"
x = opener.open(a_url)
print(x.read())

# Install the opener.
# Now all calls to urllib.request.urlopen use our opener.
urllib.request.install_opener(opener)

a = urllib.request.urlopen(a_url).read().decode(‘utf8‘)
print(a)

9、使用代理

#! /usr/bin/env python3

import urllib.request

proxy_support = urllib.request.ProxyHandler({‘sock5‘: ‘localhost:1080‘})
opener = urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)

a = urllib.request.urlopen("http://g.cn").read().decode("utf8")
print(a)

10、超时

#! /usr/bin/env python3

import socket
import urllib.request

# timeout in seconds
timeout = 2
socket.setdefaulttimeout(timeout)

# this call to urllib.request.urlopen now uses the default timeout
# we have set in the socket module
req = urllib.request.Request(‘http://twitter.com/‘)
a = urllib.request.urlopen(req).read()
print(a)

原文：http://www.cnblogs.com/shgq/p/3937087.html

内容总结

以上是互联网集市为您收集整理的python3 抓取网页资源的 N 种方法全部内容，希望文章能够帮你解决python3 抓取网页资源的 N 种方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1115012.html

来源：【匿名】

【上一篇】Python用列表实现简单的登陆【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python3 抓取网页资源的 N 种方法】教程文章相关的互联网学习教程文章

python 之字符串的常用方法【代码】【图】

split()函数：返回以指定的字符将字符串分割成多个元素的列表 1 my_str = ‘name is wangxiaoming‘ 2 3print(my_str.split()) #默认不写参数表示按空格符进行切割 4print(my_str.split(‘‘,1)) #数字1 表示切割一次 5 6""" 7运行结果8 9[‘name‘, ‘is‘, ‘wangxiaoming‘] 10[‘name‘, ‘is wangxiaoming‘]my_str = ‘name★is★wangxiaoming‘print(my_str.split(‘★‘)) #默认不写参数表示按空格符进行切割print(my_st...

Python中List.index()方法的使用教程【代码】

index()方法返回obj出现在列表中最低位索引。语法以下是index()方法的语法： list.index(obj)参数 obj -- 这是被找到的对象返回值此方法返回找到的对象的索引，否则抛出一个异常，表明没有找到对应值例子下面的例子显示了index()方法的使用 #!/usr/bin/pythonaList = [123, ‘xyz‘, ‘zara‘, ‘abc‘];print "Index for xyz : ", aList.index( ‘xyz‘ ) ; print "Index for zara : ", aList.index( ‘zara‘ ) ;当我们运行...

Python——基本的方法（2）【代码】

Python内置了很多有用的函数，我们可以直接调用。要调用一个函数，需要知道函数的名称和参数，可以直接从Python的官方网站查看文档。常见的方法：绝对值方法abs(-100)，得到100；最大值方法max（1，2，23，-20，100），得到100；数据类型转换方法int（‘221‘），得到数字221；int（12.344）得到12；bool（1）得到True，bool（）得到False>> int(‘123‘) 123 >>> int(12.34) 12 >>> float(‘12.34‘) 12.34 >>> str(1.23) ‘1.23‘...

python3安装pip3的方法【代码】【图】

1、点击链接：https://bootstrap.pypa.io/get-pip.py，并下载get-pip.py文件; 2、文件下载完成之后，cd到当前目录，并进行安装，如下：root@zhuzhu-K53SJ:/home/zhuzhu# ls examples.desktop 公共的视频文档音乐 PycharmProjects 模板图片下载桌面 root@zhuzhu-K53SJ:/home/zhuzhu# cd 下载 root@zhuzhu-K53SJ:/home/zhuzhu/下载# ls get-pip.py Untitled Diagram(1).png Untitled Diagram.png root@zhu...

python函数执行超时处理的两种方法【代码】

背景最近写了自动化需要下载apk，但有时候部分包下载很慢，影响整体测试时间，所有需要设定下载超时自动退出。方法一：通过func_timeout模块的@func_set_timeout()来实现步骤：1.安装 pip install func_timeout2.不多说了直接上代码#_________________________________方式1：通过func_timeout装饰器来解决函数执行超时______________________________________________from func_timeout import func_set_timeout import func_tim...

python在交互模式下直接输入对象后回车，调用的是对象的repr()方法，这个方法表示的是一个编码，用print+对象是调用对象的str方法

交互模式下调用对象的__repr__()方法，这个方法表示的是一个编码>>> u"国庆节快乐"u‘\u56fd\u5e86\u8282\u5feb\u4e50‘ 用print+对象是调用对象的__str__方法>>> print u"国庆节快乐"国庆节快乐>>>定义一个类，重写__repr__和__str__方法>>> class P():... def __repr__(self):... return "is repr method invoked"... def __str__(self):... return "is str method invoked"...>>> p=P()#实例化这个类的...

Python字符串拼接的6种方法（转）【代码】

add by zhj: 对于多行字符串连接，第6种连接方法很方便，连接时不会添加额外的空格。原文：http://www.cnblogs.com/bigtreei/p/7892113.html1. 加号第一种，有编程经验的人，估计都知道很多语言里面是用加号连接两个字符串，Python里面也是如此直接用 “+” 来连接两个字符串；print ‘Python‘ + ‘Tab‘结果：PythonTab回到顶部2. 逗号第二种比较特殊，使用逗号连接两个字符串，如果两个字符串用“逗号”隔开，那么这两个字符串将...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

[Python] 字符串拼接方法大 PK，及其要点总结【代码】

代码name = ‘中国人‘ num = 3print(‘我是‘ + name + "，今年有" + str(num) + "个愿望") print(‘我是%s，今年有%d个愿望‘%(name, num)) print(‘我是{name}，今年有{num}个愿望‘.format(num=num,name=name)) print(‘我是{}，今年有{}个愿望‘.format(name, num)) print(‘我是‘, name, ‘，今年有‘, num, ‘个愿望‘, sep = ‘‘) print(f‘我是{name}，今年有{num}个愿望‘) 执行结果我是中国人，今年有3个愿望我是中国...

python魔术方法（二）【图】

上下文管理:文件IO操作可以对文件对象使用上下文管理，使用with...as语法with open(‘test‘) as f: pass当一个对象同时实现了__enter__()和__exit__()方法，就属于上下文管理的对象__enter__:进入与此对象相关的上下文，如果存在该方法，with语法会把该方法的返回值绑定到as子句中指定的变量上，换句话说就是__enter__方法的返回值就是上下文使用的对象，with语法会把这个返回值赋给as子句的变量上__exit__：退出与此对象相关的上...

python获取目录下所有文件的方法【代码】

本文实例讲述了python获取目录下所有文件的方法。分享给大家供大家参考。具体分析如下：os.walk()函数声明：walk(top,topdown=True,onerror=None)1. 参数top表示需要遍历的目录树的路径2. 参数topdown的默认值是"True",表示首先返回目录树下的文件，然后在遍历目录树的子目录.Topdown的值为"False"时，则表示先遍历目录树的子目录，返回子目录下的文件，最后返回根目录下的文件3. 参数onerror的默认值是"None",表示忽略文件遍历时产...

python入门（十四）：面向对象（属性、方法、继承）【图】

任何东西1）属性（特征：通常可以用数据来描述）（类变量和实例变量）2）可以做一些动作（方法）类来管理对象的数据。属性：类变量和实例变量（私有变量）方法： 1）实例方法 2）类方法 3）静态方法面向对象和函数管理数据：类：专有数据（可以存储，和对外使用）方法（用于操作专有数据的）,实现操作数据的规则。函数：无专有数据，谁给他传值都可以处理，并返回本身不能存储数据。 class compute: def __init__(se...

Python 字符串，列表，字典，集合的常用方法【代码】

Python 字符串，列表，字典，集合的常用方法String 字符串常用方法# find 方法查询字符串，返回子串所在的位置的最左段的索引# a = ‘asdfghjkl‘ # print(‘find 方法‘) # print(a.find(‘asd‘)) # print(a.find(‘dfg‘, 5, 10)) # print(‘-‘*50)# join 方法是非常重要的字符串方法，属于split方法的逆方法。用来连接序列中的元素，元素皆为字符串# b = [‘1‘, ‘2‘, ‘3‘, ‘4‘] # print(‘join 方法‘) # print(‘...

Python获取网页指定内容(BeautifulSoup工具的使用方法)【图】

page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码 2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容) 2.1 以豆瓣电影排名为例子网址是http://movie.douban.com/top250?format=text，进入网址后...

PYTHON自动化Day10-经典类和新式类的区别、重写父类方法、多线程、多进程、数据驱动框架的编写【代码】

一.重写父类方法、经典类和新式类在python2中的区别：#两种情况： #1.父类的方法子类中完全不需要，子类重新写 #2.父类有这个方法，但功能不够完善，子类想要在父类这个方法的基础上再添加一些新功能class ZLL():def smile(self):print(‘哈哈哈‘)class Xz(ZLL): #继承这个父类def smile(self): #重写父类的方法　　　　　#如果想要在子类中执行父类的smile方法# ZLL().smile() #调用父类，注意ZLL后面有（），因为调用的是实...

首页 / PYTHON / python3 抓取网页资源的 N 种方法

python3 抓取网页资源的 N 种方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【python3 抓取网页资源的 N 种方法】教程文章相关的互联网学习教程文章

方法 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程