首页 / PYTHON / 初试python爬取网页数据

初试python爬取网页数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了初试python爬取网页数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2905字，纯文字阅读大概需要5分钟。

内容图文

　　任务要求：寻找记录当日全国疫情数据的网站，爬取其中的数据存入数据库，最后像之前数据可视化一样用图表显示数据。

　　参考博客：https://www.cnblogs.com/dd110343/p/12461824.html

　　在讲解之前先附上老师要求的表格统计图：

初试python爬取网页数据 - 文章图片

这是我在完成该作业时记录的过程，写得很简略。留作业当天晚上我选择使用Java+Jsoup尝试爬取，但是所选择的网站，当我用Chrome浏览器读取它的HTML代码时，发现其数据是使用jQuery写在<script>里的，由于我不会使用Java+Jsoup将<script>中关于数据的内容单独摘取出来，且舍友已经通过python写出了爬取功能，我就打算用python再试试。python爬取网站的能力很强，代码也十分简单：

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import re
 4 import pymysql
 5 import json
 6 import datetime
 7 #记录执行次数
 8 num=0
 9 #向数据库写入数据
10 def insertdata(data,n):
11     conn=pymysql.connect("localhost","root","Inazuma","paqu",charset='utf8')
12     cur=conn.cursor()
13     sql="INSERT INTO yiqing(Date,Province,City,Confirmed,Cured,Dead) VALUES(%s,%s,%s,%s,%s,%s)"
14     try:
15         cur.execute(sql,data)
16         conn.commit()
17         print(n)
18     except:
19         conn.rollback()
20         print("ERROR")
21     conn.close()
22 #所要爬取的网站的地址
23 url = 'https://raw.githubusercontent.com/BlankerL/DXY-2019-nCoV-Data/master/json/DXYArea.json'
24 #调用requests.get()方法
25 response = requests.get(url)
26 #转换为文本
27 version = response.text
28 #提取其中的json数据
29 jsonData = json.loads(version)
30 #根据数据进行筛选写入
31 for i in range(len(jsonData['results'])):
32     if(jsonData['results'][i]['countryName']=='中国'):
33         province = jsonData['results'][i]['provinceName']
34         for j in range(len(jsonData['results'][i]['cities'])):
35             confirmed=jsonData['results'][i]['cities'][j]['confirmedCount']
36             cured=jsonData['results'][i]['cities'][j]['curedCount']
37             dead=jsonData['results'][i]['cities'][j]['deadCount']
38             city=jsonData['results'][i]['cities'][j]['cityName']
39             #使用python中datetime的方法提取时间（yyyy-mm-dd）
40             date=datetime.date.today()
41             #提取数据完成，执行操作，num+1
42             num=num+1
43             #调用入库方法
44             insertdata((date,province,city,confirmed,cured,dead),num)

我一开始选择爬取的网站是这个：https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1，但针对其中某<div>控件里<ul>中用于存储数据的的<li>元素数据无法提取出来，针对其<div>的上一级爬取没有问题，整个HTML爬取也能正常显示，但是内部爬取就返回为空。这个BUG我从当天中午一直弄到下午5点左右（3月11号），但还是没有解决，最后在浏览其他资料时偶然看到了上面我给的博客，我发现他爬取的网站是一个纯json数据的文本，提取json数据很简单，最后完成了该任务。当然，我之前爬取网站出现的BUG不可能不管，还在学习中。下面给出在爬取数据后的运行情况以及其可视化显示：

python:

初试python爬取网页数据 - 文章图片

Navicat for MySQL（这里显示部分数据，总计426条（见上图））:

初试python爬取网页数据 - 文章图片

可视化（代码跟上次一样，只是更改了读取的数据库，查询的SQL语句以及HTML中动态插入表格部分的部分代码）：‘

初试python爬取网页数据 - 文章图片

内容总结

以上是互联网集市为您收集整理的初试python爬取网页数据全部内容，希望文章能够帮你解决初试python爬取网页数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/637925.html

来源：【匿名】

【上一篇】Python 爬取每日全国疫情+数据入库+可视化显示【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【初试python爬取网页数据】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

这是之前做的一个小项目。这几天刚好整理了一些相关资料，顺便就在这里做一个梳理啦~ 简单来说这个项目实现了，登录人人网并爬取用户数据。并对用户数据进行分析挖掘，终于效果例如以下：1、存储人人网用户数据（户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页）。2、信息可视化，绘制户主好友间的关系网络图；3、数据挖掘，通过分析户主好友关注的公共主页，向户主推荐公共主页。项目分为三个部分，各自是人...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

从入门到自闭之Python--MySQL数据库的单表操作【代码】

单表查询：select * from 表 where 条件 group by 分组 having 过滤 order by 排序 limit n;语法：select distinct 字段1，字段2... from 表名 where 条件 group by 组名 having 筛选 order by 排序 limit 限制条数找到表:from拿着where指定的约束条件，去文件/表中取出一条条记录将取出的一条条记录进行分组group by，如果没有group by，则整体作为一组执行select（去重）：select * from 表名;将分组的结果进行having过滤将结果按...

Python的Django框架中的数据库配置指南【代码】

记住这些理念之后，让我们来开始 Django 数据库层的探索。首先，我们需要做些初始配置；我们需要告诉Django使用什么数据库以及如何连接数据库。我们假定你已经完成了数据库服务器的安装和激活，并且已经在其中创建了数据库（例如，用 CREATE DATABASE 语句）。如果你使用SQLite，不需要这步安装，因为SQLite使用文件系统上的独立文件来存储数据。象前面章节提到的 TEMPLATE_DIRS 一样，数据库配置也是在Django的配置文件里，缺省...

python连接mysql数据库

1.系统必须安装MySQL-python软件，否则python没有连接的模块(在Linux系统)yum install MySQL-python2.安装mysql数据库yum install mysql-server mysql[root@AY140528120357495c4bZ ~]# /etc/init.d/mysqld restartStopping mysqld: [ OK ]Starting mysqld: [ OK ][root@AY140528120357495c4bZ ~]#3.在mysql中创建数据库和表[root@AY1405...

4-Python数据类型之元组-字符串【代码】

目录1 元组概念1.1 元祖的特点1.2 元组的定义1.3 元组的访问1.4 元组的查询2 命名元组3 字符串3.1 字符串的基本操作3.1.1 字符串的访问3.1.2 字符串的拼接3.2 字符串分割3.3 字符串大小写3.4 字符串排版3.5 字符串修改3.6 字符串查找3.7 字符串判断3.8 字符串格式化3.8.1 C语言格式化3.8.2 format格式化3.8.3 对齐3.8.9 小数点与进制4 切片4.1 切片赋值1 元组概念????????元组（类型为 tuple）和列表十分相似,但是元组和字符串一样...

python 一维和二位数据的高斯模糊滤波【代码】【图】

高斯模糊一阶核函数:高斯函数二阶核函数：def calc(self,x,y=0):if self.level==1:return 1/((2*math.pi)**0.5*self.sigema)*math.exp(-(x**2/2/(self.sigema**2)))elif self.level==2:return 1/(2*math.pi*self.sigema*self.sigema)*math.exp(-(x**2+y**2)/2/self.sigema/self.sigema) σ为标准差定义一个模糊半径，通过上述公式获取到需要的核函数如半径r=1 ，σ=2一阶时为x=[-1,0,1],生成核为[0.176033，0.199471，0.176033]/d...

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

财经数据接口包tushare的使用（一）Tushare是一款开源免费的金融数据接口包，可以用于获取股票的历史数据、年度季度报表数据、实时分笔数据、历史分笔数据，本文对tushare的用法，已经存在的一些问题做一些介绍。一：安装tushare为避免由于依赖包缺失导致安装失败，请先安装anaconda,百度网盘地址：链接：http://pan.baidu.com/s/1qYDQUGs 密码：6wq8 安装直接一直下一步即可安装完成之后，anaconda会自动配置环境变量，直接就可...

python常用的数据类型【代码】

int_num = 7 float_num = 7.7 string = "python" a, b, c = 7, 7.7, "python"print(int_num, type(int_num)) print(float_num, type(float_num)) print(string, type(string)) print(a, b, c) print("a=%.6f"%a) print(len(c))运行结果：7 <class‘int‘> 7.7 <class‘float‘> python <class‘str‘> 7 7.7 python a=7.000000 原文：https://www.cnblogs.com/jumpkin1122/p/11503119.html

python基础，小数据池内存地址，is与==区别【代码】

内存地址 id() 总结：数字类型，字符串类型，元组，变量不同值相同的内存地址是相同的。列表，字典，反之。int类型#共同内存地址 a = 2345435436457656756 b = 2345435436457656756 print(id(a)) #id() 内存地址 print(id(b))结果：16521307949521652130794952float类型#共同内存地址 a = 234.5435436457656756 b = 234.5435436457656756 print(id(a)) print(id(b))结果：19538493853681953849385368str类型#共同内存地址 s...

python3生成随机数据，并存入sqlite3

#!/usr/bin/python #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/6/15 22:46 # @Author : Kwan # @File : insert_db.py # @Software: PyCharmimport sqlite3 import random import datetime# conn = sqlite3.connect('local.db') # # c = conn.cursor() # # c.execute("insert into system_cfg values(?,?,?)",(2,'test2',1)) # # conn.commit() # # conn.close()def make_date(): # def make_card_n...

python数据库操作【代码】

#!/usr/src/python# -*- coding:utf-8 -*-import pymysqlimport socket,structdef sql_exe(v_sql): conn = pymysql.Connect(host=‘192.168.110.133‘,port=3306,user="admin",password="mysql123",database="hostmgr",charset=‘utf8‘) cursor = conn.cursor() v = cursor.execute(v_sql) result = cursor.fetchall() # result = cursor.fetchone() # result = cursor.fetchmany(2) print(result) curso...

Python 复数数据类型详解（complex）[学习 Python 必备基础知识][看此一篇就够了]【代码】【图】

您的“关注”和“点赞”，是信任，是认可，是支持，是动力......如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。目录1 复数数据类型概述2 从复数中提取实部和虚部3 相关函数 complex()3.1 complex() 函数概述3.2 注意事项4 文章其他地址4.1 微信公众号：码农阿杰4.2 CSDN 博客5 参考资料5.1 Python 3.8.2 documentation1 复数数据类型概述复数数据类型，简称复数类型。在 Python 中用comple...

python的基本数据类型【代码】

‘‘‘ int str bool list 存储大量的数据，用[]来表示 tuple 元组，不可以发生改变，用()来表示，和C++的元组是一样的 dict 字典，保存键值对，一样可以保持大量的数据，和C++的map一样 set 集合，内部数据不可以重复 ‘‘‘ 字符串的任何操作都不会改变它本身，所以需要提供另一个字符串来承装#字符串的截取片段 s1 = input("输入字符串：\n") a = input("输入开始截取的位置：\n") b = input("输入结束截取的位置：\n") a = int...

Python数据驱动(ddt)【代码】

import unittest import ddt #第三方库data=[[1,2],[3,4],[5,6]]@ddt.ddtclass MyTestCase(unittest.TestCase):#只有一个参数时@ddt.data(1,2,3)def test_01(self,a):print(a)@ddt.data(*data)#表示可参数，若传参是data,则后面的取值a=[[1,2],[3,4],[5,6]] @ddt.unpackdef test_02(self,a,b):print(a,‘----‘,b)@ddt.data([1,2],[3,4])#和上面的相似，这里未使用变量 @ddt.unpackdef test_03(self,a,b):print(a, ‘----‘...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 初试python爬取网页数据

初试python爬取网页数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【初试python爬取网页数据】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

从入门到自闭之Python--MySQL数据库的单表操作【代码】

Python的Django框架中的数据库配置指南【代码】

python连接mysql数据库

4-Python数据类型之元组-字符串【代码】

python 一维和二位数据的高斯模糊滤波【代码】【图】

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

python常用的数据类型【代码】

python基础，小数据池内存地址，is与==区别【代码】

python3生成随机数据，并存入sqlite3

python数据库操作【代码】

Python 复数数据类型详解（complex）[学习 Python 必备基础知识][看此一篇就够了]【代码】【图】

python的基本数据类型【代码】

Python数据驱动(ddt)【代码】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程