首页 / PYTHON / Python 多线程爬取站酷（zcool.com.cn）图片

Python 多线程爬取站酷（zcool.com.cn）图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python 多线程爬取站酷（zcool.com.cn）图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1744字，纯文字阅读大概需要3分钟。

内容图文

极速爬取下载站酷（https://www.zcool.com.cn/）设计师/用户上传的全部照片/插画等图片。

项目地址：https://github.com/lonsty/scraper

特点：

极速下载：多线程异步下载，可以根据需要设置线程数
异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o^)/
增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
支持代理：可以配置使用代理

环境：

python3.6及以上

1. 快速使用

1) 克隆项目到本地

git clone https://github.com/lonsty/scraper

2) 安装依赖包

cd scraper
pip install -r requirements.txt

3) 快速使用

通过用户名username下载所有图片到路径path下：

python crawler.py -u <username> -d <path>

运行截图

Python 多线程爬取站酷（zcool.com.cn）图片 - 文章图片

爬取结果

Python 多线程爬取站酷（zcool.com.cn）图片 - 文章图片

2. 使用帮助

查看所有命令

python crawler.py --help

Usage: crawler.py [OPTIONS]

  Use multi-threaded to download images from https://www.zcool.com.cn in
  bulk by username or ID.

Options:
  -i, --id TEXT              User id.
  -u, --username TEXT        User name.
  -d, --directory TEXT       Directory to save images.
  -p, --max-pages INTEGER    Maximum pages to parse.
  -t, --max-topics INTEGER   Maximum topics per page to parse.
  -w, --max-workers INTEGER  Maximum thread workers.  [default: 20]
  -R, --retries INTEGER      Repeat download for failed images.  [default: 3]
  -r, --redownload TEXT      Redownload images from failed records.
  -o, --override             Override existing files.  [default: False]
  --proxies TEXT             Use proxies to access websites.
                             Example:
                             '{"http": "user:passwd@www.example.com:port",
                             "https": "user:passwd@www.example.com:port"}'
  --help                     Show this message and exit.

3. 更新历史

Version 0.1.0 (2019.09.09)

主要功能：
- 极速下载：多线程异步下载，可以根据需要设置线程数
- 异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o^)/
- 增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
- 支持代理：可以配置使用代理

内容总结

以上是互联网集市为您收集整理的Python 多线程爬取站酷（zcool.com.cn）图片全部内容，希望文章能够帮你解决Python 多线程爬取站酷（zcool.com.cn）图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/678201.html

来源：【匿名】

【上一篇】Python实现汉诺塔【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python 多线程爬取站酷（zcool.com.cn）图片】教程文章相关的互联网学习教程文章

python的各种网络请求库 urllib3 requests aiohttp 分别请求http和https 的效率对比，多线程、gevent、asyncio对比，超大线程池、2n + 1 线程池对比【代码】【图】

此文三个目的，不能光意淫概念误入歧途，有的人以为得概念一套一套的，其实并不是想的那样，实践对比才能出真知，要尊重实践。此文使用各种网络请求库和各种并发模式和各种大小的线程池来测试请求50000次一个内容源码很小的百度静态页面，分别测试http和httpshttps://www.baidu.com/content-search.xmlhttp://www.baidu.com/content-search.xml网页内容很小，（基本可以排除认为请求得慢，耍赖说是网速带宽差造成的）。 1.总结一下...

PYTHON——多线程：从Thread类继承【代码】

从Thread类继承　　通过继承Thread来实现多线程可以提高对线程任务的个性化定制，具体实现如下：实例代码：# 从Thread类继承import threading from time import sleep,ctime# 线程类,从Thread类继承而来。class MyThread(threading.Thread):# 重写父类的构造方法，其中，func是线程函数，args是传入线程函数的参数，name是线程名称def__init__(self,func,args,name=‘‘):# 使用super函数调用父类的构造方法，并传入相应的参数值。...

python 多线程爬虫

最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。1、larbin的URL去重用的很高效的bloom filter算法； 2、DNS处理，使用的adns异步的开源组件； 3、对于url队列的处理，则是用部分缓存到内存，部分写入文件的策略。 4、larbin对文件的相关操作做了很多工作 5、在larbin里有连接池，通过创建套接字，向目标站点发送HTTP协议中GET方法，获取内容，再解析header之类...

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

考核题目中涉及到多线程编程，于是复习了一下系统编程里面的各种概念。首先，程序是代码，没有活动。通过编译连接之后被加载到内存里运行时，内存活动的就是进程，这里的进程不仅仅是代码段，还包括涉及的数据等。而线程是在同一个进程下的小程序，它们可以“同时”地运行，其中会有一个主线程来控制。接下来是多线程或着多进程的实现，两者原理基本一样，都是把CPU的时间分片然后进行分配给某个进程或者线程，也就是说在同...

python 多线程ping大量服务器在线情况【代码】【图】

需要ping一个网段所有机器的在线情况，shell脚步运行时间太长，用python写个多线程ping吧，代码如下：#!/usr/bin/python #coding=utf-8‘‘‘ Created on 2015-8-4 @author: Administrator ‘‘‘import threading,subprocess from time import ctime,sleep,time import Queuequeue=Queue.Queue()class ThreadUrl(threading.Thread):def__init__(self,queue):threading.Thread.__init__(self)self.queue=queuedef run(self):while ...

Python多线程的初步的认识（转载自https://www.cnblogs.com/yeayee/p/4952022.html）【代码】

单线程　　在好些年前的MS-DOS时代，操作系统处理问题都是单任务的，我想做听音乐和看电影两件事儿，那么一定要先排一下顺序。（好吧！我们不纠结在DOS时代是否有听音乐和看影的应用。^_^）from time import ctime,sleepdef music():for i in range(2):print "I was listening to music. %s" %ctime()sleep(1)def move():for i in range(2):print "I was at the movies! %s" %ctime()sleep(5)if __name__ == ‘__main__‘:music()...

python学习笔记——正则表达式和多线程【代码】

正则表达式30分钟正则表达式 python中对于正则表达式使用re模块处理因为python本身也用\转义，所以可以在字符串前使用r前缀，这样就不用考虑转义问题了。match()match()方法判断是否匹配成功，然会一个match()对象，否则返回None。import re test = '字符串' if re.match(r'正则表达式',test):print('ok') else:print('failed')split()re模块中的split([正则表达式],[字符串])方法可以使用正则表达式分割字符串，返回值为分割后的...

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

最近在看Python的多线程，经常我们会听到老手说：“python下多线程是鸡肋，推荐使用多进程！”，但是为什么这么说呢？要知其然，更要知其所以然。所以有了下面的深入研究：首先强调背景：1、GIL是什么？GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全所做的决定。2、每个CPU在同一时间只能执行一个线程（在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲都是同...

python多线程-共享全局变量【代码】

目录多线程-共享全局变量多线程-共享全局变量列表当作实参传递到线程中总结多线程-共享全局变量问题多线程开发可能遇到的问题测试1测试2多线程-共享全局变量多线程-共享全局变量import threading import timeg_num = 200 def test1():global g_numfor i in range(5):g_num += 1print("--test1, g_num = %d--" % g_num)def test2():global g_num print("--test2, g_num = %d--" % g_num)if __name__ == "__main__":print("--执行...

模拟MapReduce，Python多线程处理【代码】【图】

? MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。模拟一个最简单的map reduce 的编程#### 实现一个map reduce 编程。 #### 有一串数字作为输入。，每个数字对7取余。最后把余数相加import time mylist=[134,43...

python多线程之Threading【代码】

什么是线程？线程是操作系统内核调度的基本单位，一个进程中包含一个或多个线程，同一个进程内的多个线程资源共享，线程相比进程是“轻”量级的任务，内核进行调度时效率更高。多线程有什么优势？多线程可以实现多任务并发执行，简化代码的编写难度，每一个独立的模块都可以设计成一个独立的线程运行线程间通信比进程间通信难度更小，效率更高，因为资源共享线程的调度比进程的调度效率高Python 语言内置了多线程功能支持，而不是单...

【Python3 爬虫】U24_多线程爬虫之Thread类创建多线程【代码】【图】

目录1.开篇知识补充2.继承自threading.Thread类1.开篇知识补充查看线程数 threading.enumerate()函数可以查看当前线程数量。查看当前线程的名字使用threading.current_thread()可以查看当前线程的信息。2.继承自threading.Thread类为了让线程更好的封装，，可以使用threading模块下的Thread，继承这个类，然后实现run方法，线程就会自动运行run方法中的代码。示例代码如下：import threading import timeclass DanceThread(thread...

python_way ,day9 socket 和soctet多线程的使用【代码】【图】

1、socket的基础 tcp/ip tcp ip 协议是主机接入互联网以及接入互联网互联两台主机通信互联标准物理层：传输二进制链路层：对二进制数进行分组，唯一标示一台主机数据帧组成：包头：18个字节原地址，目标地址，数据类型，数据：最大1500字节网络层：跑的ip协议，可以让各个子网之间进行通信，标示两台主机的ip地址传输层：tcp/tdp，标示端口号：应用程序会话层：表示层应用层 soctet:就是对tcp/ip协议的...

python 多线程-02 线程池【代码】

from concurrent.futures import ThreadPoolExecutor import timedef task(a1,a2):time.sleep(1)print("{},{}".format(a1, a2,))if __name__ == '__main__':# 定义线程池pool = ThreadPoolExecutor(10)for i in range(100):# 申请线程池中的线程pool.submit(task, i, 8)原文：https://www.cnblogs.com/pythonPath/p/12459702.html

初识python：多线程【代码】【图】

多线程：在一个程序中，独立运行的程序片断叫作“线程”（Thread），利用它编程的概念就叫作“多线程处理”。即：一个进程中，多个线程。举个例说明：就像是一列火车就是一个“进程”（程序），火车的每一节车厢就是一个“线程”。每个线程可以独立的做一些事情。python 中 threading 模块提供了多线程编程方法。threading.enumerate() 查看当前线程的数量threading.current_thread() 查看当前线程的信息下面通过两种方式加以说明“...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python 多线程爬取站酷（zcool.com.cn）图片

Python 多线程爬取站酷（zcool.com.cn）图片

内容导读

内容图文

特点：

环境：

1. 快速使用

1) 克隆项目到本地

2) 安装依赖包

3) 快速使用

2. 使用帮助

3. 更新历史

Version 0.1.0 (2019.09.09)

内容总结

内容备注

内容手机端

【Python 多线程爬取站酷（zcool.com.cn）图片】教程文章相关的互联网学习教程文章

python的各种网络请求库 urllib3 requests aiohttp 分别请求http和https 的效率对比，多线程、gevent、asyncio对比，超大线程池、2n + 1 线程池对比【代码】【图】

PYTHON——多线程：从Thread类继承【代码】

python 多线程爬虫

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

python 多线程ping大量服务器在线情况【代码】【图】

Python多线程的初步的认识（转载自https://www.cnblogs.com/yeayee/p/4952022.html）【代码】

python学习笔记——正则表达式和多线程【代码】

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

python多线程-共享全局变量【代码】

模拟MapReduce，Python多线程处理【代码】【图】

python多线程之Threading【代码】

【Python3 爬虫】U24_多线程爬虫之Thread类创建多线程【代码】【图】

python_way ,day9 socket 和soctet多线程的使用【代码】【图】

python 多线程-02 线程池【代码】

初识python：多线程【代码】【图】

PYTHON - 相关标签

多线程 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程