首页 / 爬虫 / 基于python的批量网页爬虫

基于python的批量网页爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了基于python的批量网页爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2665字，纯文字阅读大概需要4分钟。

内容图文

在各个网站，较久远的天气信息基本需要付费购买，因此为了花费更少的代价，得到完整的信息，我们经常会对一个网站进行爬虫，这篇文章是我第一次爬虫的心得，因为是第一次进行爬虫，python程序运行时间较长，若有错误，请大佬指出。

爬取网站https://en.tutiempo.net/climate/ws-567780.html上昆明每月的平均天气信息。以昆明1942年7月为例，观测网站https://en.tutiempo.net/climate/07-1942/ws-567780.html，可以发现，绿色代表月份，蓝色代表年份，我们需要爬取的信息是1942年到2019年每月的信息。即https://en.tutiempo.net/climate/01-1942/ws-567780.html到https://en.tutiempo.net/climate/12-2019/ws-567780.html每个网页上图1红框内的信息。

基于python的批量网页爬虫 - 文章图片

图1

F12观测网页结构如图2，找到该红框所对应的代码（html小白可以把鼠标放在代码上，出现的蓝筐即为该代码所构成的网页模块）。

基于python的批量网页爬虫 - 文章图片

图2

发现红框对应的网页代码如图3所示：

基于python的批量网页爬虫 - 文章图片

图3

因此构造python字符匹配代码：

'<td class="tc2">(.*)</td><td class="tc3">(.*)</td><td class="tc4">(.*)</td><td class="tc5">(.*)</td><td class="tc6">(.*)</td><td class="tc7">(.*)</td><td class="tc8">(.*)</td><td class="tc9">(.*)</td><td class="tc10">(.*)</td><td>&nbsp;</td><td>(.*)</td><td>(.*)</td><td>(.*)</td><td>(.*)</td>'

构造出的整体python代码如下：

import requests
import re
from xlwt import *

book = Workbook(encoding='utf-8')
sheet = book.add_sheet('Sheet1') #创建一个sheet
for j in range(78):
    # 一共78年
    for k in range(12):
        # 一共12个月
        print(j,k)
        try:
            # 匹配字符串
            word2 = '<td class="tc2">(.*)</td><td class="tc3">(.*)</td><td class="tc4">(.*)</td><td class="tc5">(.*)</td><td class="tc6">(.*)</td><td class="tc7">(.*)</td><td class="tc8">(.*)</td><td class="tc9">(.*)</td><td class="tc10">(.*)</td><td>&nbsp;</td><td>(.*)</td><td>(.*)</td><td>(.*)</td><td>(.*)</td>'
            # 在1到9月前面加个0
            if(k<9):
                url = "https://en.tutiempo.net/climate/0{}-{}/ws-567780.html".format(k + 1, j + 1942)
            else:
                url = "https://en.tutiempo.net/climate/{}-{}/ws-567780.html".format(k + 1, j + 1942)
            f = requests.get(url)  # Get该网页从而获取该html内容
            str = f.content.decode()
            # 返回查找到的数据
            wordlist2 = re.findall(re.compile(word2), str)
            for i in range(13):
                # 将数据存入book中
                print(wordlist2[0][i])
                a = j*12+k
                sheet.write(a, i, label=wordlist2[0][i])
        except:
            print()
# 将book保存到表格里
book.save("weather.xls")

运行后得到的excel表格见图5，经过ctrl+F进行字符替换和excel表的数据-分列-完成操作后，得到表格见图6，进行一些修饰，见图7表格。

基于python的批量网页爬虫 - 文章图片

图5

基于python的批量网页爬虫 - 文章图片

图6

基于python的批量网页爬虫 - 文章图片

图7

最后，本篇文章乃作者原创，禁止将本篇文章内容用于商业用途，若需转载请标明出处。

内容总结

以上是互联网集市为您收集整理的基于python的批量网页爬虫全部内容，希望文章能够帮你解决基于python的批量网页爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/811110.html

来源：【匿名】

【上一篇】Python协程理解、基于爬虫举例【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【基于python的批量网页爬虫】教程文章相关的互联网学习教程文章

Node 爬虫，批量爬取头条视频并保存【代码】

项目地址：GitHub目标网站：西瓜视频项目功能：下载头条号【维辰财经】下的最新20个视频姊妹项目：批量下载美女图集简介一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过 writeFile 等方法逐个保存文件。然而，头条的视频，在需要爬取的 html 文件（服务端渲染输出）中，无法捕捉视频链接。视频链接是页面在客户端渲染时，通过某些 js 文件内的算法或者解密方法，根据视频的已知 key 或者 hash 值，动态计算...

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

今天终于把脚本弄好了，虽然是东拼西凑的，总算有点成就感啦，下面把代码帖这～package studyjava;import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java...

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

这两天发现了一个叫看知乎的站点。是知乎的苏莉安做的，当中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫，改用nodejs 进行实现一下。体验一下强大的 Node.js。假设之前没实用过 JavaScript，最好还是到 http://www.codecademy.com/ 做一下 JavaScript 和 jQuery 的入门练习，高速熟悉一下基本的语法，有其它语言基础一天时间足够。有基本的了解后。就会发现 JavaScript 的两大特点：使用基于原型（prototype）的方...

python3.4爬虫批量下载音乐【图】

最近在学习python，使用的版本为python3.4，开发环境为使用Pydev插件的eclipse。正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错，决定使用python批量下载下来。 1、音乐地址经过分析，页面嵌入的虾米播放器中的地址如下，后面以逗号分隔的字符为音乐的id，如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><span style="font-size:14px;"> <embed src="http://www.xiami....

使用爬虫批量下载图片【代码】【图】

import requestsfrom bs4 import BeautifulSoupimport reurl=‘http://www.quanjing.com/‘headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3253.3 Safari/537.36‘}response=requests.get(url=url,headers=headers)response.encoding=‘utf-8‘html=response.textsoup=BeautifulSoup(html,‘html.parser‘)imgs_src=soup.find_all(‘img‘,src=re.compile(‘...

nodejs制作爬虫实现批量下载图片【图】

今天想获取一大批猫的图片，然后就在360流浪器搜索框中输入猫，然后点击图片。就看到了一大波猫的图片： http://image.so.com/i?q=%E7%8... ，我在想啊，要是审查元素，一张张手动下载，多麻烦，所以打算写程序来实现。不写不知道，一写发现里面还是有很多道道的。1. 爬取图片链接因为之前也写过nodejs爬虫功能（参见：NodeJS制作爬虫全过程），所以觉得应该很简单，就用cheerio来处理dom啦，结果打印一下啥也没有，后来查看源...

爬虫框架Scrapy实战之批量抓取招聘信息【图】

所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再...

python爬虫批量抓取ip代理的方法（代码）

本篇文章给大家带来的内容是关于python爬虫批量抓取ip代理的方法（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。使用爬虫抓取数据时，经常要用到多个ip代理，防止单个ip访问太过频繁被封禁。ip代理可以从这个网站获取：http://www.xicidaili.com/nn/。因此写一个python程序来获取ip代理，保存到本地。python版本：3.6.3#grab ip proxies from xicidaili import sys, time, re, requests from multiproc...

python爬虫[一]批量下载妹子图【图】

煎蛋网上的妹子图专题有着质量很高的美女http://www.gxlcms.com/css/css-rwd-images.html" target="_blank">图片，今天分享一下用 python 批量下载这些妹子图的方法。需要了解的知识和工具：#1 需要了解 python 的基本语法，对这篇文章来说，你只要知道如何操作 list ,for……in……，如何定义函数就够了。网页抓取、分析和保存文件的函数边用边了解。#2 需要安装第三方库 BeautifulSoup4。使用 pip 安装是很便利的方法。最新版本的...

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

代码如下:#coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src): try: url = urllib2.urlopen(src) content = url.read()#.decode(utf-8) return content except: print error return Nonedef pictype(content): 通过抓取网站导航栏，获得网站的图片类型返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称...

Python爬虫框架Scrapy实战之批量抓取招聘信息【图】

网络爬虫抓取特定网站网页的html数据，但是一个网站有上千上万条数据，我们不可能知道网站网页的url地址，所以，要有个技巧去抓取网站的所有html页面。Scrapy是纯Python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～Scrapy 使用wisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。整体架构如下图所示：绿线是...

Python爬虫批量爬取网页数据并保存到Excel中【代码】

文章目录 1、环境准备2、源代码1、环境准备 pip install requests pip install re pip install openpyxl2、源代码 import requests import re import openpyxl# 要爬取的网页 baseurl = 'https://zhuanlan.zhihu.com/p/357510629'# 创建Excel表并写入数据 wb = openpyxl.Workbook() # 创建Excel对象 ws = wb.active # 获取当前正在操作的表对象 # 往表中写入标题行,以列表形式写入！ ws.append(['事件名称', '时间', '地点名称'...

Python爬虫实例-必应壁纸批量爬取【代码】

完整代码 import requests from lxml import etree import osdef get_user_input():print('要下载哪几页呀？可以输在下边，像这样"4 6 8"，用空格分开，或者中间加个减号表示范围，像这样"4-7"')user_input = input()if len(user_input) == 1:start_end_ = user_inputprint('你要下载的这页:' + str(start_end_))else:if '-' in user_input:test = list(user_input.replace('-', ' ').split())start_end_ = list(range(int(test[0]...

Python系列爬虫之批量下载抖音短视频【更新版】【图】

前言 Python批量下载抖音视频一文提供的脚本失效之后，仍然很多人来询问原因。一个个回复实在麻烦，看在大家如此喜欢这个脚本的份上，不如更新一波，得个自在。开发工具 Python版本：3.6.4 相关模块： requests模块； bs4模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。更新内容（1）接口请求返回403状态码报错修复 403状态码即服务器拒绝或禁止访问。应该是因为有人滥...

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

五、批量下载图片 1. 调用库函数【通过链接下载图片有多种方法，本文采用其中一种】 from builtins import len, hasattr, range # 提供对Python的“内置”标识符的直接访问 import re # 正则表达式 import urllib.request, urllib.error # 提供了一系列用于操作URL的功能 import requests # Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比，Requests更加方便，用来下载图片...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 基于python的批量网页爬虫

基于python的批量网页爬虫

内容导读

内容图文

内容总结

内容备注

内容手机端

【基于python的批量网页爬虫】教程文章相关的互联网学习教程文章

Node 爬虫，批量爬取头条视频并保存【代码】

JAVA网络爬虫批量下载豌豆夹中的应用【代码】

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV

python3.4爬虫批量下载音乐【图】

使用爬虫批量下载图片【代码】【图】

nodejs制作爬虫实现批量下载图片【图】

爬虫框架Scrapy实战之批量抓取招聘信息【图】

python爬虫批量抓取ip代理的方法（代码）

python爬虫[一]批量下载妹子图【图】

多线程爬虫批量下载pcgame图片url保存为xml的实现代码

Python爬虫框架Scrapy实战之批量抓取招聘信息【图】

Python爬虫批量爬取网页数据并保存到Excel中【代码】

Python爬虫实例-必应壁纸批量爬取【代码】

Python系列爬虫之批量下载抖音短视频【更新版】【图】

Python爬虫入门记（5）- 批量下载图片（正则表达式，以百度文库为例）【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程