首页 / PYTHON / 2018-7-12python爬取历史天气数据

2018-7-12python爬取历史天气数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了2018-7-12python爬取历史天气数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3445字，纯文字阅读大概需要5分钟。

内容图文

2018-7-12python爬取历史天气数据

python 爬虫天气数据

需求

需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。

                    
                        from bs4 import BeautifulSoup as bsp
import urllib,http.cookiejar,re,time
#对excel的操作，可以添加sheetimport xlwt
#拼接两个csvimport glob
import time

# 做好cookie管理工作
cookie=http.cookiejar.CookieJar() # 创建空CookieJar
cj=urllib.request.HTTPCookieProcessor(cookie) # 构造cookie
opener = urllib.request.build_opener(cj) # 根据cookie构造opener# 伪造header
opener.addheaders = [(‘User-agent‘, ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0‘),
                     (‘Connection‘,‘ keep-alive‘)]
# 载入header
urllib.request.install_opener(opener)

# 定义若干url
root_url=‘http://www.tianqihoubao.com/lishi/‘# 获取root_url网页内容
req = urllib.request.Request(root_url)
u=bsp(bytes.decode(urllib.request.urlopen(req).read(),‘gbk‘))

# 找到表格
u1=u.find(class_="citychk")

# 找到表格里的每一个市
u2=u1.find_all(‘dd‘)


# 记录每一个市的url和对应的中文名称
city_urls=[]
city_names=[]

#for uu in u2:#    u3=uu.find_all(‘a‘)#    for u3u in u3:#        city_urls.append(re.split(‘\.|/‘,u3u.attrs[‘href‘])[2])#        city_names.append(u3u.text)####  shg 2018/07/12 ###################  需要哪些城市将那些城市的拼音和汉字放到以下两个列表中，月份同理
city_urls=["nanjing","beijing"]
city_names=["南京","北京"]
months=[‘201712‘,‘201801‘,‘201802‘,‘201803‘,‘201804‘,‘201805‘,‘201806‘,‘201807‘]
####  shg 2018/07/12 ################ 构造各市历史月份urlfor i,city_url in enumerate(city_urls):
    # 每爬一个市休息2秒钟
    time.sleep(2)
    with open(‘D:/天气数据/‘+str(i)+city_names[i]+‘.csv‘,‘w‘) as f:
        #####  只给第一个csv建列名if i == 0 :
            f.write(‘日期,天气状况,气温,城市,风力风向\n‘)
        for month in months:
            url_month=‘http://www.tianqihoubao.com/lishi/‘+city_url+‘/month/‘+month+‘.html‘
            req = urllib.request.Request(url_month)

            #如果连接不成功，休息5分钟whileTrue:
                try:
                    u=bsp(bytes.decode(urllib.request.urlopen(req).read(),‘gbk‘))
                    breakexcept:
                    time.sleep(300)

            # 删去不可见字符
            u1=[re.sub(‘\s‘,‘‘,x.text) for x in u.table.find_all(‘td‘)]

            # 写入文件的时候跳过表头for j,item in enumerate(u1[4:]):
                if j%4==3:
                    # 城市名称列####  shg 2018/07/12 #################
                    f.write(city_names[i]+",")
                    f.write(item+‘\n‘)
                else:
                    f.write(item+‘,‘)
                    
                    
                    
####  shg 2018/07/12 ##################import glob   #import time##### 拼接多个城市的csv#####  注意修改路径
csvx_list = glob.glob(‘D:/天气数据/*.csv‘)
print(‘总共发现%s个CSV文件‘% len(csvx_list))
time.sleep(2)
for i in csvx_list:
    fr = open(i,‘r‘).read()
    with open(‘weather_history.csv‘,‘a‘) as f:
        f.write(fr)
print(‘拼接完毕！‘)
####  shg 2018/07/12 #################

在做的过程中遇到了几个问题，记录如下：

1 写入excel中，分成多个sheet

导入xlwt包。

                    
                        import xlwt
# 新建一个xls文件，注意编码
workbook = xlwt.Workbook(encoding=‘utf-8‘)
#  新建一个sheet，如果对一个单元格重复操作，添加cell_overwrite_ok=True
booksheet1 = workbook.add_sheet("beijing",cell_overwrite_ok=True)
#  写入
booksheet1.write(1,1,"beijing")
booksheet2 = workbook.add_sheet("jing",cell_overwrite_ok=True)
booksheet2.write(1,1,"jing")
# 保存文件
workbook.save(‘weather.xls‘)

2 拼接多个csv文件。

纵向的拼接，需要两个csv文件的列相同，注意两点：

如果是循环跑出来的表，每个表都有表头，拼接的时候不会去掉。
拼接的时候是按照文件名默认排序从上到下依次排列的。

                    
                        import glob
import time

csvx_list = glob.glob(‘D:/天气数据/*.csv‘)
print(‘总共发现%s个CSV文件‘% len(csvx_list))
time.sleep(2)
print(‘正在处理............‘)
for i in csvx_list:
    fr = open(i,‘r‘).read()
    with open(‘csv_to_csv.csv‘,‘a‘) as f:
        f.write(fr)
    print(‘写入成功！‘)
print(‘写入完毕！‘)
print(‘10秒钟自动关闭程序！‘)

3 获取网页上表格的方法

                    [re.sub(‘\s‘,‘‘,x.text) for x in u.table.find_all(‘td‘)]

re.sub("替换的内容“，”替换成“，需替换的字符串）

替换的内容可以使用正则表达式，\ 为转义字符；| 为或，可以拼接多个条件；例如：

                    
                        import re
re.sub(‘\[|\]|\"|\"‘,‘‘,‘["88585465","64325165","1685654"]‘)

>>> ‘88585465,64325165,1685654‘

原文：https://www.cnblogs.com/shgwater/p/9302222.html

内容总结

以上是互联网集市为您收集整理的2018-7-12python爬取历史天气数据全部内容，希望文章能够帮你解决2018-7-12python爬取历史天气数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1268086.html

来源：【匿名】

【上一篇】05、Python语法入门之垃圾回收机制【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【2018-7-12python爬取历史天气数据】教程文章相关的互联网学习教程文章

2018-7-12python爬取历史天气数据【代码】

2018-7-12python爬取历史天气数据python 爬虫天气数据需求需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。from bs4 import BeautifulSoup as bsp import urllib,http.cookiejar,re,time #对excel的操作，可以添加sheetimport xlwt #拼接两个csvimport glob import time# 做好cookie管理工作 cookie=http.cookiejar.CookieJar() # 创建空CookieJar cj=urllib.r...

Python3基础 json.loads 解析json格式的数据，得到一个字典【代码】

???? Python : 3.7.0?????? OS : Ubuntu 18.04.1 LTS?????? IDE : PyCharm 2018.2.4????? Conda : 4.5.11???typesetting : Markdowncode""" @Author : 行初心 @Date : 18-9-24 @Blog : www.cnblogs.com/xingchuxin @Gitee : gitee.com/zhichengjiu """import jsondef main():my_dict = {"spam": "foo", "parrot": 42}my_json = json.dumps(my_dict) # 编码数据print(type(my_json))print(my_json)print()tagert = json....

Python3.5 MySQL 数据库连接【代码】

Python3.5 MySQL 数据库连接在本文中介绍 Python3 使用PyMySQL连接数据库，并实现简单的增删改查为什么使用PyMySQL？　　PyMySQL是在Pyhton3.x版本中用于连接MySQL数据库的一个库，Python2中则使用mysqldb库。PyMySQL安装　　在使用PyMySQL之前，需要确保安装PyMySQL库。可以使用pip进行安装pip install PyMySQL 数据库连接连接数据库前，请先确认以下事项：您已经创建了数据库 TESTDB.在TESTDB数据库中您已经创建了表 t_tablet_t...

Python系列-格式化数据并排序【代码】【图】

目的:将几个记录时间时刻的数据格式化统一，然后进行排序。1.前提有四个文件，文件的格式都不一样，都表示时间 james.txt‘2-34‘, ‘3:21‘, ‘2.34‘, ‘2.45‘, ‘3.01‘, ‘2:01‘, ‘2:01‘, ‘3:10‘, ‘2-22‘julie.txt‘2.59‘, ‘2.11‘, ‘2:11‘, ‘2:23‘, ‘3-10‘, ‘2-23‘, ‘3:10‘, ‘3.21‘, ‘3-21‘mikey.txt‘2:22‘, ‘3.01‘, ‘3:01‘, ‘3.02‘, ‘3:02‘, ‘3.02‘, ‘3:22‘, ‘2.49‘, ‘2:38‘sara...

python连接oracle数据库

python连接oracle数据库需要oracle客户端的版本，cx_Oracle的版本，要与Python版本和位数对应，都是32位或者64位。操作系统：64位Python版本：Python3.5.0 64位；cx_Oracle的版本：cx_Oracle-5.2.1-11c.win-amd64-py3.5oracle客户端的版本：instantclient-basic-win-x86-64-11.2.0.1.0；需注意的点：版本位数对应，都是64位；cx_Oracle和python版本对应，都是3.5；cx_Oracle和instantclient版本对应，都是11； cx_oracle和instantc...

Python访问纯真IP数据库脚本分享【代码】

项目中有这样的需求，通过IP地址判断客户端是网通的还是电信的。从同事那拿了个纯文本的IP纯真数据库，用Python写了一个小程序，感觉挺好的。下面给出实现源码： #!/usr/bin/env python # -*- coding: utf-8 -*-from bisect import bisect_LIST1, _LIST2 = [], [] _INIT = Falseip2int = lambda ip_str: reduce(lambda a, b: (a << 8) + b, [int(i) for i in ip_str.split(‘.‘)])def _init():global _LIST, _INITif not _INIT:fo...

python多进程拷贝数据【代码】

from multiprocessing import Pool,Manager import os #完成拷贝文件def copyFile(filename,oldname,newname,que):"拷贝文件函数"# 三部操作读取内容，写入内容关闭 que.put(filename)br = open(oldname+‘/‘+filename,‘rb‘)bw = open(newname+‘/‘+filename,‘wb‘)content = br.read()bw.write(content) #关闭源文件和目标文件 br.close()bw.close()def fun():#1、提示输入要拷贝的文件名字oldname = input("请输入...

Python——进程通信之间数据共享【代码】

from multiprocessing import Manager,Process,Lock def main(dic,lock):lock.acquire()dic[‘count‘] -= 1lock.release()if__name__ == ‘__main__‘:m = Manager()l = Lock()dic=m.dict({‘count‘:100})p_lst = []for i in range(50):p = Process(target=main,args=(dic,l))p.start()p_lst.append(p)for i in p_lst: i.join()print(‘主进程‘,dic) 原文：https://www.cnblogs.com/cxys85/p/9835896.html

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read()html=""" <html><head><title>The Dormouse‘s story</titl...

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python-网络安全编程第四天（数据库编程&网络编程）【代码】【图】

前言好几天没更因为寒假放假回家放松了几天嘿嘿今天继续开始启动学习模式。python数据库编程 Python DB API访问数据库流程 Python DB API包含的内容什么是 PyMySQL？PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqldb。PyMySQL 遵循 Python 数据库 API v2.0 规范，并包含了 pure-Python MySQL 客户端库。 PyMySQL 安装$ pip3 install PyMySQLconnection对象 connection 对象支持的方...

Python 分布式缓存之Reids数据类型操作【代码】【图】

目录1、Redis API2、String 操作3、Hash 操作4、List 操作1、Redis API1.安装redis模块$ pip3.8 install redis 2.使用redis模块import redis# 连接redis的ip地址/主机名，port，password=None r = redis.Redis(host="127.0.0.1",port=6379,password="gs123456") 3.redis连接池redis-py使用connection pool来管理对一个redis server的所有连接，避免每次建立、释放连接的开销。默认，每个Redis实例都会维护一个自己的连接池。可以直...

Python的变量名、数据类型和简单运算、条件语句，循环及练习【代码】

Python中的变量名->字母 ‘name‘，‘age‘， ->数字 ‘name1‘，‘age1‘->下划线 ‘name_1‘，‘age_1‘注意：不能以数字开头例：1name_，不能是Python中的关键字，最好不要与Python内置的东西重复，如：‘and‘，‘as‘，‘break‘，‘class‘....补充：在写变量名时，尽量让变量名起的有意义一些，如用户ID应该写作user_id较为合适。数据类型字符串类型在Python中引号之中的内容即字符串。如：name1 = ‘萨摩耶‘ na...

python04_基本数据类型（2）【图】

三、布尔类型布尔值(booleans)：是一个逻辑值，取值范围只有true和false 布尔值为假的值有：‘’，0，0.0，()，[]，{}，None，False其中None是一个特殊的常量，表示一种特殊的数据类型布尔值为真的值有：除了为假的，其他都为真四、其他常量：一旦初始化就不能修改的固定值注意：在python中一个常量通常用大写（非强制）表示，如PI=3.1415926NoneTypeNone表示什么也没有PS：三引号和单双引号相比，可以自动转义原文：https://blog....

python利用wave对声音数据进行处理【代码】【图】

1.引入包import numpy as np import wave import math import glob import matplotlib.pyplot as pl2.读取.wav声音文件#根据声音路径，得到录音特征值def get_wav_mfcc(wave_path):f = wave.open(wave_path,‘rb‘)params = f.getparams()nchannels, sampwidth, framerate, nframes = params[:4]strData = f.readframes(nframes)#读取音频，字符串格式waveData = np.fromstring(strData,dtype=np.int16)#将字符串转化为intwaveData...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 2018-7-12python爬取历史天气数据

2018-7-12python爬取历史天气数据

内容导读

内容图文

2018-7-12python爬取历史天气数据

需求

1 写入excel中，分成多个sheet

2 拼接多个csv文件。

3 获取网页上表格的方法

内容总结

内容备注

内容手机端

【2018-7-12python爬取历史天气数据】教程文章相关的互联网学习教程文章

2018-7-12python爬取历史天气数据【代码】

Python3基础 json.loads 解析json格式的数据，得到一个字典【代码】

Python3.5 MySQL 数据库连接【代码】

Python系列-格式化数据并排序【代码】【图】

python连接oracle数据库

Python访问纯真IP数据库脚本分享【代码】

python多进程拷贝数据【代码】

Python——进程通信之间数据共享【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python-网络安全编程第四天（数据库编程&网络编程）【代码】【图】

Python 分布式缓存之Reids数据类型操作【代码】【图】

Python的变量名、数据类型和简单运算、条件语句，循环及练习【代码】

python04_基本数据类型（2）【图】

python利用wave对声音数据进行处理【代码】【图】

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程