首页 / PYTHON / Python -- 网络编程 -- 抓取网页图片 -- 图虫网

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python -- 网络编程 -- 抓取网页图片 -- 图虫网，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1933字，纯文字阅读大概需要3分钟。

内容图文

字符串(str)编码成字节码(bytes)，字节码解码为字符串

获取当前环境编码：sys.stdin.encoding

url编码urllib.parse.quote()

url解码urllib.parse.unquote()

列表去重：pages = list(set(pages))

创建文件夹（可多级创建）：os.makedirs(folder) os.mkdir()只能单级创建

首先分析网页（图虫网）的URL规律：

　　根网页地址形如：

　　　　http://tuchong.com/tags/人像/?page=[1, 2, 3 ...]

　　二级网页链接形如：

　　　　href="http://tuchong.com/239137/6400827/"
　　　　href="http://hezi1984.tuchong.com/6407909/"

　　目标图片链接形如：

　　　　src="http://photos.tuchong.com/27949/f/6915745.jpg"

-----程序源文件：getPic.py-----

            
                 1
                import
                 re, os, time

                 2
                import
                 urllib.parse

                 3
                import
                 urllib.request

                 4
                 5
                def getHtml(url):#取得网页的html纯文本 6return urllib.request.urlopen(url).read().decode(‘utf-8‘)
 7 8def download(url, filename):#将文件下载到本地 9    urllib.request.urlretrieve(url, filename)
1011if__name__ == ‘__main__‘:
12print(‘---图虫图片抓取器---‘)
13     pageNo = int(input(‘请输入抓取页面的数字后缀（输入q退出）:‘))
14#url汉字编码处理15     url = ‘http://tuchong.com/tags/{}/?page={}‘.format(16                 urllib.parse.quote(‘人像‘), str(pageNo))
17#获取页面HTML文本18     html = getHtml(url)
1920#解析HTML文本，得到二级网页的地址（根网页缩略图所指向的链接）21     rePage = r‘http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/‘22     pages = re.findall(rePage, html)
23     pages = list(set(pages))
2425#解析二级网页，下载其中的图片26for page in pages:
27print(‘当前网页：‘, page)
28         html2 = getHtml(page)#取得二级网页内容29#解析二级网页中图片地址的正则表达式30         rePic = r‘http://photos.tuchong.com/.+/f/.+\.jpg‘31         pics = re.findall(rePic, html2)
32         pics = list(set(pics))
33         folder = ‘D:/TuChongRenXiang/{}/{}‘.format(pageNo, page[-8:-1])
34ifnot os.path.exists(folder):
35            os.makedirs(folder)
36             note = open(folder+‘/note.txt‘, ‘wt‘)#在每个文件夹下创建一个日志文件，记录下载地址37             note.write(‘来源网址：‘+page+‘\n图片原始地址列表：\n‘)
38for pic in pics:
39                 note.write(pic+‘\n‘)
40            note.close()
41print(‘目标文件夹：‘, folder)
42         time.sleep(1)#程序暂停一秒43for pic in pics:
44print(‘当前下载：‘, pic)
45             download(pic, folder+‘/‘+pic[-11:])
46print(‘下载结束。‘)
474849

原文：http://www.cnblogs.com/baijifeilong/p/3708198.html

内容总结

以上是互联网集市为您收集整理的Python -- 网络编程 -- 抓取网页图片 -- 图虫网全部内容，希望文章能够帮你解决Python -- 网络编程 -- 抓取网页图片 -- 图虫网所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1189456.html

来源：【匿名】

【上一篇】python -mSimpleHTTPServer 开启一个简单的http服务器，可传输文件【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python -- 网络编程 -- 抓取网页图片 -- 图虫网】教程文章相关的互联网学习教程文章

python网络编程-socket

python提供了两个socket模块Socket，它提供了标准的BSD Sockets APISocketServer，它提供了服务器中心类，可以简化网络服务器的开发下面先说socket模块 1、socket类型套接字格式：socket(family,type[,protocal]) 使用给定的地址、套接字类型、协议编号(默认为0)来创建套接字常用的套接字类型：socket.SOCK_STREAM 面向连接的，TCPsocket.SOCK_DGRAM无连接，UDP创建TCP Socket：s=socket.socket(socket.AF_INET,socket.SOCK_...

Python的网络编程[3] -> BOOTP 协议 -> BOOTP 的 Python 实现【代码】

BOOTP实现 / BOOTP Implement目录BOOTP 的服务器建立过程BOOTP 的客户端建立过程 Note: 理论部分请参考文末相关阅读链接1 BOOTP 的服务器建立过程服务器建立步骤主要有:（1）设定服务器IP，传送ip(offer_ip)，服务端口68，客户端口67;（2）建立send_socket/UDP，广播模式允许复用，绑定到服务器ip，客户端端口;（3）建立主循环，建立recv_socket进行监听广播地址和客户端口;（4） Recv_socket进行广播接收，...

python面试题网络编程和数据库【代码】

Python面试重点（进阶篇）注意：只有必答题部分计算分值，补充题不计算分值。第一部分必答题简述 OSI 7层模型及其作用？（2分）应用层表示层会话层传输层端口 udp tcp 四层交换机四层路由器网络层 Ipv4 路由器三层交换机数据链路层 mac arp协议网卡交换机物理层简述 TCP三次握手、四次回收的流程。（3分）# 1.三次握手是tcp协议建立连接的过程# 2.由客户端发起一个syn请求,服务端接收并回复 (syn\ack)# 客户端收...

网络编程－Python的netaddr库

In [1]: from netaddr import *In [2]: ip = IPAddress(‘172.16.100.39‘) ip.format()ip地址的格式化‘172.16.100.39‘ repr(ip)"IPAddress(‘172.16.100.39‘)" ip = IPNetwork(‘172.16.100.39/24‘)ip.networkIPAddress(‘172.16.100.0‘) ip.broadcastIPAddress(‘172.16.100.255‘) ip.ipIPAddress(‘172.16.100.39‘) ip.size256 ip.netmaskIPAddress(‘255.255.255.0‘) ip.hostmaskIPAddress(‘0.0.0.255‘)原文：http:/...

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

字符串(str)编码成字节码(bytes)，字节码解码为字符串获取当前环境编码：sys.stdin.encodingurl编码urllib.parse.quote()url解码urllib.parse.unquote()列表去重：pages = list(set(pages))创建文件夹（可多级创建）：os.makedirs(folder) os.mkdir()只能单级创建首先分析网页（图虫网）的URL规律：　　根网页地址形如：　　　　http://tuchong.com/tags/人像/?page=[1, 2, 3 ...]　　二级网页链接形如：　　　　href="http://t...

吴裕雄--天生自然python学习笔记：Python3 网络编程【代码】

Python 提供了两个级别访问的网络服务。：低级别的网络服务支持基本的 Socket，它提供了标准的 BSD Sockets API，可以访问底层操作系统Socket接口的全部方法。高级别的网络服务模块 SocketServer，它提供了服务器中心类，可以简化网络服务器的开发。什么是 Socket? Socket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可以通讯。socket()函数 Python 中，我们用 soc...

python网络编程【代码】

TCP/IPtcp编程Socket -- 表示“打开了一个网络链接”，而打开一个Socket需要知道目标计算机的IP地址和端口号，再指定协议类型TCP连接中客户端主动发起连接，服务器响应连接。创建一个TCP的客户端socketimport sockets = socket.socket(socket.AF_INET, socket.SOCK_STREAM)s.connect((‘ 80)) # 发送数据 s.send(b‘GET / HTTP/1.1\r\nHost:# 接收数据 buffer = [] while True: d = s.recv(1024) if d: buffer...

Python之路【第九篇】：Python基础（25）——socket网络编程【图】

socket网络编程socket通常也称作"套接字"，用于描述IP地址和端口，是一个通信链的句柄，应用程序通常通过"套接字"向网络发出请求或者应答网络请求。socket起源于Unix，而Unix/Linux基本哲学之一就是“一切皆文件”，对于文件用打开、读写、关闭模式来操作。socket就是该模式的一个实现，socket即是一种特殊的文件，一些socket函数就是对其进行的操作（读/写IO、打开、关闭）socket和file的区别：file模块是针对某个指定文件进行打开...

Python 3学习 ——网络编程【代码】

Python 学习——面向对象写此博客是为了激励自己，并且将自己的心得以及遇到的问题与人分享一、网络编程　　SOCK_STRAM ：TCP　　SOCK_Dgram ：UDP　　两个参数决定了不同的连接方式，主要使用TCP连接。family = AF_INET ：服务器之间的通信　　family = AF_UNIX ：Unix 不同进程的通信。　　send 或者 sendall 方法传送的类型一定要是 bytes 类型。（相互通信）小应用：server 端和 client 端进行通信。　　server 端代码： ...

Python之路(第三十二篇) 网络编程：udp套接字、简单文件传输【代码】

一、UDP套接字服务端 # udp是无链接的，先启动哪一端都不会报错# udp没有链接，与tcp相比没有链接循环，只有通讯循环server = socket.socket(socket.AF_INET,socket.SOCK_DGRAM) #创建一个服务器的套接字server.bind() #绑定服务器套接字inf_loop: #服务器无限循环cs = server.recvfrom()/server.sendto() # 对话(接收与发送)server.close() # 关闭服务器套接字客户端 client = socket()...

Python网络编程常用代码【图】

服务器端代码:1234567891011121314151617181920212223242526# -*- coding: cp936 -*-importsocket sock =socket.socket(socket.AF_INET, socket.SOCK_STREAM)#初始化socket sock.bind(("127.0.0.1", 8001))#绑定本机地址，8001端口sock.listen(5)#等待客户连接 whileTrue: print"waiting client connection..." connection,address =sock.accept()#接收客户连接请求 print"a client have connected..." whileTrue: try: ...

【python】网络编程-SocketServer 实现客户端与服务器间非阻塞通信【代码】

利用SocketServer模块来实现网络客户端与服务器并发连接非阻塞通信。首先，先了解下SocketServer模块中可供使用的类：BaseServer：包含服务器的核心功能与混合（mix-in）类挂钩；这个类只用于派生，所以不会生成这个类的实例；可以考虑使用TCPServer和UDPServer。TCPServer/UDPServer：基本的网络同步TCP/UDP服务器。UnixStreamServer/ UnixDatagramServer：基本的基于文件同步TCP/UDP服务器。ForkingMixIn/ ThreadingMixIn：实现了...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python -- 网络编程 -- 抓取网页图片 -- 图虫网

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python -- 网络编程 -- 抓取网页图片 -- 图虫网】教程文章相关的互联网学习教程文章

python网络编程-socket

Python的网络编程[3] -> BOOTP 协议 -> BOOTP 的 Python 实现【代码】

python面试题网络编程和数据库【代码】

网络编程－Python的netaddr库

Python -- 网络编程 -- 抓取网页图片 -- 图虫网【代码】【图】

吴裕雄--天生自然python学习笔记：Python3 网络编程【代码】

python网络编程【代码】

Python之路【第九篇】：Python基础（25）——socket网络编程【图】

Python 3学习 ——网络编程【代码】

Python之路(第三十二篇) 网络编程：udp套接字、简单文件传输【代码】

Python网络编程常用代码【图】

【python】网络编程-SocketServer 实现客户端与服务器间非阻塞通信【代码】

Python -- 网络编程osi五层协议【代码】【图】

python网络编程学习《一》【代码】【图】

Python网络编程02----基于UDP的Python简易服务器【图】

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程