首页 / PYTHON / python多线程爬取-今日头条的街拍数据（附源码加思路注释）

python多线程爬取-今日头条的街拍数据（附源码加思路注释）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python多线程爬取-今日头条的街拍数据（附源码加思路注释），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3165字，纯文字阅读大概需要5分钟。

内容图文

              这里用的是json+re+requests+beautifulsoup+多线程

1
            import
             json

              2
            import
             re

              3
            from multiprocessing.pool import Pool
  4  5import requests
  6from bs4 import BeautifulSoup
  7from config import *
  8from requests import RequestException
  9 10 11def get_page_index(offset, keyword):
 12‘‘‘得到一个页面的索引‘‘‘ 13     data = {
 14‘offset‘: offset,
 15‘format‘: ‘json‘,
 16‘keyword‘: keyword,
 17‘autoload‘: ‘true‘,
 18‘count‘: ‘20‘,
 19‘cur_tab‘: ‘1‘,
 20‘from‘: ‘search_tab‘ 21    }
 22# 请求方式一 23# url = ‘https://www.toutiao.com/search_content/?‘+urlencode(data) 24# response = requests.get(url) 25 26# 请求方式二 27     url = ‘https://www.toutiao.com/search_content/‘ 28try:
 29         response = requests.get(url, params=data)
 30if response.status_code == 200:
 31return response.text
 32return None
 33except RequestException:
 34return None
 35 36 37def parse_page_index(html):
 38‘‘‘解析json数据‘‘‘ 39     data = json.loads(html)
 40if data and‘data‘in data.keys():
 41for item in data.get(‘data‘):
 42yield item.get(‘article_url‘)
 43 44 45def get_page_detail(url):
 46‘‘‘得到详情页的数据‘‘‘ 47# 添加的请求头 48     headers = {
 49‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘,
 50    }
 51try:
 52         response = requests.get(url, headers=headers)
 53if response.status_code == 200:
 54return response.text
 55return None
 56except RequestException:
 57return None
 58 59 60def parse_page_detail(html, url):
 61‘‘‘解析详情页数据‘‘‘ 62     soup = BeautifulSoup(html, ‘lxml‘)
 63     t = soup.select(‘title‘)
 64for i in t:
 65         title = i.get_text()
 66 67     pattern = re.compile(‘gallery: JSON.parse\("(.*?)"\),‘, re.S)
 68     result = re.search(pattern, html)
 69if result:
 70 71# print(result.group(1)) 72         d = re.sub(‘\\\\‘, ‘‘, result.group(1))
 73# print(d) 74         data = json.loads(d)
 75if data:
 76             images = [item.get(‘url‘) for item in data.get(‘sub_images‘)]
 77for image in images:
 78                download_image(image, title)
 79return {
 80‘title‘: title,
 81‘url‘: url,
 82‘images‘: images
 83            }
 84else:
 85        None
 86 87 88def download_image(url, title):
 89‘‘‘ 90    图片下载
 91    :param url: 下载的连接
 92    :return:
 93‘‘‘ 94print(‘正在下载‘, url)
 95try:
 96         response = requests.get(url)
 97if response.status_code == 200:
 98             content = response.content
 99            save_to_image(content, title)
100return None
101except RequestException:
102return None
103104105 count = 0
106107108def save_to_image(content, title):
109global count
110‘‘‘111    保存图片文件
112    :param content: 图片文件的内容
113    :return:
114‘‘‘115     name = title + str(count)
116     file_path = ‘./头条/{}.{}‘.format(name, ‘jpg‘)
117     with open(file_path, ‘wb‘) as f:
118         count += 1
119        f.write(content)
120121122def main(offset):
123‘‘‘主程序入口‘‘‘124     html = get_page_index(offset, ‘街拍‘)
125126# print(html)127for url in parse_page_index(html):
128129if url:
130# print(url)131             html = get_page_detail(url)
132if html:
133# print(parse_page_detail(html, url))134                 result = parse_page_detail(html, url)
135if result:
136print(result)
137# save_to_mongo(result)138139140 GROUP_START = 1
141 GROUP_END = 20
142if__name__ == ‘__main__‘:
143     groups = [i * 20 for i in range(GROUP_START, GROUP_END)]
144     pool = Pool()
145     pool.map(main, groups)

原文：https://www.cnblogs.com/yunlongaimeng/p/9572148.html

内容总结

以上是互联网集市为您收集整理的python多线程爬取-今日头条的街拍数据（附源码加思路注释）全部内容，希望文章能够帮你解决python多线程爬取-今日头条的街拍数据（附源码加思路注释）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1269433.html

来源：【匿名】

【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python多线程爬取-今日头条的街拍数据（附源码加思路注释）】教程文章相关的互联网学习教程文章

python多线程爬取-今日头条的街拍数据（附源码加思路注释）【代码】

这里用的是json+re+requests+beautifulsoup+多线程1import json2import re3from multiprocessing.pool import Pool4 5import requests6from bs4 import BeautifulSoup7from config import *8from requests import RequestException9 10 11def get_page_index(offset, keyword):12‘‘‘得到一个页面的索引‘‘‘ 13 data = {14‘offset‘: offset,15‘format‘: ‘json‘,16‘keyword‘: keyword,17‘autoload‘: ‘true‘,18...

Python多线程【代码】

参考：https://www.liaoxuefeng.com/wiki/1016959663602400/1017629247922688多任务可以由多进程完成，也可以由一个进程内的多线程完成。进程是由若干线程组成的，一个进程至少有一个线程。threadingimport time import threading# 新线程执行的代码 def loop(n: int):print(f‘线程{threading.current_thread().name} 正在运行...‘)while n < 5:n = n + 1print(f‘线程{threading.current_thread().name}>>>{n}‘)time.sleep(1)p...

python-多线程共享全局变量【代码】

import threadingimport time# 定义一个变量nums = [11, 22]def test1(nums): nums.append(33) print(‘-----------in test1 num={}---‘.format(nums))def test2(): print(‘-----------in test2 num={}---‘.format(nums))def main(): t1 = threading.Thread(target=test1, args=(nums,)) # args 传递参数，要用元组的形式 t2 = threading.Thread(target=test2) t1.start() time.sleep(1) t2.start() ...

多线程网页爬虫 python 实现（二）【代码】

#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import timecur=0 last=0 totalcount=0 depth=0 t_mutex=threading.Condition() class Mycrawler:def __init__(self,crawlername,seeds,threadnum):self.crawlername=crawlernameself.seeds=seedsself.crawqueue=CrawQueue()self.initQueue(self.seeds)self.threadnum=threadnumself.threadpools=[]self.logfile=file(‘log2.txt‘,‘w‘)def initQ...

python多线程示例2，加锁（工作太忙，仅仅作为记录）【代码】

1import threading2 3# 多线程本质上是在一个 Python 程序里做的一个资源再分配，把几段代码的运行顺序进行先后调整达到 CPU 资源利用的最大化。 4# 但是这么做的一个缺点就是资源竞争Resource Contention，意思就是有可能几段代码同时在读写一个参数的时候，把这个参数的数值搞混。 5# 所以在多线程共享资源的情况下，需要在共享资源外部添加锁 Lock。 6 7# 直接继承线程类，然后覆盖继承类函数的方法 8class ThreadChild(threadi...

Python守护进程（多线程开发）【代码】

#!/usr/bin/pythonimport sys,time,json,logging import Queue, threading, datetime from lib.base.daemon import Daemonfrom lib.queue.httpsqs.HttpsqsClient import HttpsqsClient from lib.db.DbMongodb import DbMongodblogging.basicConfig(level=logging.DEBUG,format=‘%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s‘,datefmt=‘%a, %d %b %Y %H:%M:%S‘,filename=‘myapp.log‘,filemode=‘w‘...

python多线程（三）【代码】

原文：http://www.cnblogs.com/tqsummer/archive/2011/01/25/1944771.html一、Python中的线程使用： Python中使用线程有两种方式：函数或者用类来包装线程对象。1、函数式：调用thread模块中的start_new_thread()函数来产生新线程。如下例：import time import thread def timer(no, interval): cnt = 0while cnt<10: print ‘Thread:(%d) Time:%s\n‘%(no, time.ctime()) time.sleep(interval) cnt+=1 thread.exit_...

分析nginx大日志文件，python多线程必备! .【代码】

还在为分析nginx大日志犯愁吗？也许你会想到用shell处理，1G文件没有问题，上了10G文件，会消耗很久时间，用shell结合python多线程处理没有错。什么都不用说了，直接上代码了#!/usr/bin/python #coding:utf8 import threading #载入多线程模块 import time #载入时间模块 import os #载入os模块 import shutil #载入shutil模块 import re #载入re正则模块 fuhao=os.linesep #换行符...

Python 多线程、进程【代码】【图】

本节内容操作系统发展史介绍进程、与线程区别python GIL全局解释器锁线程语法join线程锁之Lock\Rlock\信号量将线程变为守护进程Event事件　queue队列生产者消费者模型Queue队列开发一个线程池进程语法进程间通讯进程池　　　　操作系统发展史手工操作（无操作系统）1946年第一台计算机诞生--20世纪50年代中期，还未出现操作系统，计算机工作采用手工操作方式。手工操作程序员将对应于程序和数据的已穿孔的纸带（或卡片）装入输入...

python多线程中锁的概念【代码】

python的锁可以独立提取出来mutex = threading.Lock() #锁的使用 #创建锁 mutex = threading.Lock() #锁定 mutex.acquire([timeout]) #释放 mutex.release() 概念好几个人问我给资源加锁是怎么回事，其实并不是给资源加锁, 而是用锁去锁定资源，你可以定义多个锁, 像下面的代码, 当你需要独占某一资源时，任何一个锁都可以锁这个资源就好比你用不同的锁都可以把相同的一个门锁住是一个道理import threading import time c...

Python 多线程教程：并发与并行【图】

Python 多线程教程：并发与并行在批评Python的讨论中，常常说起Python多线程是多么的难用。还有人对 global interpreter lock(也被亲切的称为“GIL”)指指点点，说它阻碍了Python的多线程程序同时运行。因此，如果你是从其他语言（比如C++或Java）转过来的话，Python线程模块并不会像你想象的那样去运行。必须要说明的是，我们还是可以用Python写出能并发或并行的代码，并且能带来性能的显著提升，只要你能顾及到一些事情。如果你还...

Python 多线程Ⅱ【图】

线程模块Python通过两个标准库thread和threading提供对线程的支持。thread提供了低级别的、原始的线程以及一个简单的锁。threading 模块提供的其他方法：threading.currentThread(): 返回当前的线程变量。threading.enumerate(): 返回一个包含正在运行的线程的list。正在运行指线程启动后、结束前，不包括启动前和终止后的线程。threading.activeCount(): 返回正在运行的线程数量，与len(threading.enumerate())有相同的结果。除了...

5.Python网络编程_通过继承实现多线程【代码】

1import threading2import time3 4#继承形式的多线程，适合于程序比较复杂的情况 5class MyThread(threading.Thread):6#t.start()会调用run函数，所以必须有个run方法 7#线程类内的其他方法除非run函数内部调用他们，否则不会被调用 8def run(self):9for i in range(3): 10 time.sleep(1) 11 msg="I‘m "+self.name+‘ @ ‘+str(i) #name属性保存当前线程的名字12print(msg) 1314if__name__==‘__main__‘...

使用Python SocketServer快速实现多线程网络服务器

Python SocketServer使用介绍1、简介： SocketServer是python的一个网络服务器框架，可以减少开发人员编写网络服务器程序的工作量。SocketServer总共有4个server基类。TCPServer：负责处理TCP协议。UDPServer：负责处理UDP协议。UnixStreamServer：只适用于类unix平台，不常用。UnixDatagramServer：只适用于类unix平台，不常用。这4个类会同步处理每一个request，也就是说只有当前的request处理完才会处理下一个request，...

python之多线程【代码】

多线程是为了同步完成多项任务，通过提高资源效率来提高系统的效率。它是在同一时间完成多项任务的时候实现的。在 Python 中，使用多线程的模块是 threading。其中最常用的是 Thread 类。import threading import timedef coding():for x in range(3):print(‘%s正在写代码‘ % x)time.sleep(1)def drawing():for x in range(3):print(‘%s正在画图‘ % x)time.sleep(1)def single_thread():coding()drawing()def multi_thread():t...

首页 / PYTHON / python多线程爬取-今日头条的街拍数据（附源码加思路注释）

python多线程爬取-今日头条的街拍数据（附源码加思路注释）

内容导读

内容图文

内容总结

内容备注

内容手机端

【python多线程爬取-今日头条的街拍数据（附源码加思路注释）】教程文章相关的互联网学习教程文章

python多线程爬取-今日头条的街拍数据（附源码加思路注释）【代码】

Python多线程【代码】

python-多线程共享全局变量【代码】

多线程网页爬虫 python 实现（二）【代码】

python多线程示例2，加锁（工作太忙，仅仅作为记录）【代码】

Python守护进程（多线程开发）【代码】

python多线程（三）【代码】

分析nginx大日志文件，python多线程必备! .【代码】

Python 多线程、进程【代码】【图】

python多线程中锁的概念【代码】

Python 多线程教程：并发与并行【图】

Python 多线程Ⅱ【图】

5.Python网络编程_通过继承实现多线程【代码】

使用Python SocketServer快速实现多线程网络服务器

python之多线程【代码】

多线程 - 相关标签

注释 - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程