首页 / 爬虫 / [python 那些事] [初级练习] 简单爬虫武汉加油

[python 那些事] [初级练习] 简单爬虫武汉加油

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了[python 那些事] [初级练习] 简单爬虫武汉加油，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1462字，纯文字阅读大概需要3分钟。

内容图文

目标网站：https://news.163.com/special/epidemic/
任务：爬取当日各地疫情基本状况
适合人群：了解基本python代码，小项目实训

代码如下

先引入爬虫利器requests 和数据处理小能手pandas

import requests
import pandas as pd

下面函数是获取json数据

def get_page(url):
    headers={'User-Agent':'XXXXXXX'}
    r=requests.get(url, headers=headers)
    r.encoding = r.apparent_encoding
    a=r.json()
    return a

下面就需要稍微分析一下网页源码了，毕竟是提取有效信息嘛

def parse_page(html):
    all=[]
    china = html['data']['areaTree'][0]['children']
    for i in range(len(china)):
        provinceName=china[i]['name']
        for j in range(len(china[i]['children'])):
            cityName = china[i]['children'][j]['name']
            confirm = china[i]['children'][j]['today']['confirm']
            dead = china[i]['children'][j]['today']['dead']
            heal = china[i]['children'][j]['today']['heal']
            suspect = china[i]['children'][j]['today']['suspect']
            lastUpdateTime = china[i]['children'][j]['lastUpdateTime']
            a = {'province':provinceName,'city':cityName,
                     'confirm':confirm,'dead':dead,'heal':heal,
                    'suspect':suspect,'lastUpdateTime':lastUpdateTime}
            all.append(a)
    return all

下面是将有效数据保存到文件中

def save_file(all):
    df = pd.DataFrame(all)
    order=['province','city','confirm','dead','heal','suspect','lastUpdateTime']
    df = df[order]
    df.to_csv('pachong.csv',index=True,header=True)

上面都是函数下面就是执行啦

url = "https://c.m.163.com/ug/api/wuhan/app/data/list-total?t=316639086783"
dataJson = get_page(url)
allData = parse_page(dataJson)
save_file(allData)

老规矩有问题私聊

内容总结

以上是互联网集市为您收集整理的[python 那些事] [初级练习] 简单爬虫武汉加油全部内容，希望文章能够帮你解决[python 那些事] [初级练习] 简单爬虫武汉加油所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/639900.html

来源：【匿名】

【上一篇】python爬虫工程师成长之路四爬虫实战(一)【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【[python 那些事] [初级练习] 简单爬虫武汉加油】教程文章相关的互联网学习教程文章

第一次爬虫练习【代码】

在交互平台打印贴吧内的图片的链接地址 1#coding:utf-8 2 3import re4import urllib //导入库5 6def gethtml(url):7 page=urllib.urlopen(url) //打开链接的页面8 html=page.read()　　//读取链接的源码9return html 1011def getimg(html): 12 reg=r‘src="(.*?\.jpg)" size‘ //正则13 imgreg=re.compile(reg)　　//编译正则 14 imglist=re.findall(reg,html)　　//在源码中查找正则相对应的资源 15return ...

基于python2的豆瓣Top250爬虫练习【代码】

1# coding=utf-8 2import urllib3import re4#获取源码 5def gethtml(pg):6 url = ‘https://movie.douban.com/top250?start=%d&filter=‘ % pg7 html = urllib.urlopen(url).read()8return html910#爬取数据 11if__name__ == ‘__main__‘: 12 pat = re.compile(‘<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<img.*?alt="(.*?)" src="(.*?)".*?>‘,re.S) 13for i in range(0,226,25): 14 html = gethtml(i...

网络爬虫基础练习【代码】

0.可以新建一个用于练习的html文件，在浏览器中打开。329.html<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>Simple DOM Demo</title> </head><body><h1>This is the document body</h1><P ID = "p1Node">This is paragraph 1.</P><P ID = "p2Node">段落2</P><a href="http://www.gzcc.cn/">广州商学院</a><li><a href="http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html"><div class="news-l...

Python爬虫练习爬百度百科python词条【代码】

1.spider_main# coding:utf8 from baike_spider import url_manager, html_downloader, html_parser, html_outputerclass SpiderMain(object): def __init__(self):self.urls = url_manager.UrlManager()self.downloader = html_downloader.HtmlDownLoader()self.parser = html_parser.HtmlParser()self.outputer = html_outputer.HtmlOutPuter() def craw(self, root_url):count = 1self.urls.add_new_url(root_url)whil...

网络爬虫基础练习【代码】【图】

import requests url=‘http://localhost:63342/zjc/news.html?_ijt=p2l5n0shp613m01ad0jlpobino‘ res=requests.get(url) res.encoding=‘utf-8‘from bs4 import BeautifulSoup soup=BeautifulSoup(res.text,‘html.parser‘)取出h1标签的文本print(soup.h1.text) 取出a标签的链接s=soup.a.attrs[‘href‘] print(s) 取出所有li标签的所有内容s=soup.select(‘li‘) print(s) 取出一条新闻的标题、链接、发布时间、来源s0=soup.s...

spider爬虫练习【图】

package com.jinzhi.spider;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URI;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.LinkedHashSet;import java.util.regex.Matcher;import java.util.regex.Pattern;import javax.xml.stream.events.Start...

node.js学习笔记之koa框架和简单爬虫练习【图】

Koa -- 基于 Node.js 平台的下一代 web 开发框架koa是由 Express 原班人马打造的，致力于成为一个更小、更富有表现力、更健壮的 Web 框架。使用 koa 编写 web 应用，可以免除重复繁琐的回调函数嵌套，并极大地提升错误处理的效率。koa 不在内核方法中绑定任何中间件，它仅仅提供了一个轻量优雅的函数库，使得编写 Web 应用变得得心应手。开发思路和express差不多，最大的特点就是可以避免异步嵌套。koa2利用ES7的async/await特性...

爬虫基础练习—python爬虫下载豆瓣妹子图片

下载指定网站上的妹子图片，这里只抓了前100页的图片，可根据需要自己设置页数cat值为图片类型，大家可以自行更改cat值体验一下，有问题留言给我，看到就会解答2 ＝大胸妹3 ＝美腿控4 ＝有颜值5 ＝大杂烩6 ＝小翘臀import requests import re import time from bs4 import BeautifulSoupcat =2 img = http://www.dbmeinv.com/dbgroup/show.htm?cid=+ cat end = /dbgroup/show.htm?cid=+ cat + &pager_offset=100 urls = [ ] d...

Python 爬虫进阶必备 | 某爬虫练习站之 js 混淆【图】

今日网站aHR0cDovL21hdGNoLnl1YW5yZW54dWUuY29tL21hdGNoLzE=这个网站是某大佬搭建的闯关网站无限 debugger 的绕过打开开发者工具会出现 debugger直接在 debugger 对应的行号，右键选择Never pause here即可跳过抓包分析与定位跳过 debugger，通过网络面板，找到我们需要分析的参数是下面这个请求的m参数参数名字只有一个m，直接检索的话就会出现下面这么多的结果，所以放弃直接检索这个参数来查找位置。所以转换思路，使用xhr断点查...

Python爬虫实战：app抓取 - so文件协议破解安卓练习猿人学比赛题目11题详解【代码】【图】

题目链接：http://match.yuanrenxue.com/match/11 安装好app后，打开HttpCanary抓包，然后随意查询一个范围内的数字这里可以看到加载了一个so文件，然后调用了getSign方法得到了sign，如果继续静态分析的话，就要用到IDA来分析，这里我直接使用python+frida框架解决这里跳过配置环境的部分，直接遍历0-9999来调用getSign方法获取sign，因为请求次数比较多，所以我这里还是用了多线程进行请求 import frida import sys import queu...

Python爬虫练习（三）【代码】

文章目录前言一、隐藏cmd黑框二、代码1、引入库2、登录3、选择日期4、选择人员5、提交体温6、主程序总结前言使用selenium库模拟鼠标点击和键盘输入完成体温上报。一、隐藏cmd黑框打开phython所在文件夹\Lib\site-packages\selenium\webdriver\common\service.py。在start函数中的subprocess.Popen中添加参数creationflags = 134217728 二、代码1、引入库 from selenium import webdriver import time 2、登录 def login():try:...

Python爬虫学习案例练习（1）：中国大学排名【图】

爬取网站：https://www.shanghairanking.cn/rankings/bcur/2020 爬取内容：网站第1页左侧30个大学的排名爬取网页源码部分的html：一、代码优化前运行结果：二、代码优化后运行结果： --------结束---------

Python爬虫练习：爬取赶集网数据信息【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。以下文章来源于云+社区，作者 py3study 转载地址 https://blog.csdn.net/fei347795790?t=1 一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式，开始编写patubole.py文件。网络的爬取是通过这个...

Python爬虫练习：爬取阴阳师高清大图【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本环境配置python 3.6 pycharm requests相关模块pip安装即可目标网页经过一些系列的网页分析，可以发现它的图片地址 https://yys.res.netease.com/pc/zt/20161108171335/data/shishen_big_beforeAwake/201.png https://yys.res.netease.com/pc/zt/20161108171335/data/shishen_big_afterAwake/201.png https://yys.r...

Python爬虫实战练习：爬取美团旅游景点评论数据【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！QQ群：961562169 今年的国庆节还有半个月就要来了，相信...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / [python 那些事] [初级练习] 简单爬虫武汉加油

[python 那些事] [初级练习] 简单爬虫武汉加油

内容导读

内容图文

内容总结

内容备注

内容手机端

【[python 那些事] [初级练习] 简单爬虫武汉加油】教程文章相关的互联网学习教程文章

第一次爬虫练习【代码】

基于python2的豆瓣Top250爬虫练习【代码】

网络爬虫基础练习【代码】

Python爬虫练习爬百度百科python词条【代码】

网络爬虫基础练习【代码】【图】

spider爬虫练习【图】

node.js学习笔记之koa框架和简单爬虫练习【图】

爬虫基础练习—python爬虫下载豆瓣妹子图片

Python 爬虫进阶必备 | 某爬虫练习站之 js 混淆【图】

Python爬虫实战：app抓取 - so文件协议破解安卓练习猿人学比赛题目11题详解【代码】【图】

Python爬虫练习（三）【代码】

Python爬虫学习案例练习（1）：中国大学排名【图】

Python爬虫练习：爬取赶集网数据信息【图】

Python爬虫练习：爬取阴阳师高清大图【图】

Python爬虫实战练习：爬取美团旅游景点评论数据【图】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / [python 那些事] [初级练习] 简单爬虫 武汉加油

[python 那些事] [初级练习] 简单爬虫 武汉加油

内容导读

内容图文

内容总结

内容备注

内容手机端

【[python 那些事] [初级练习] 简单爬虫 武汉加油】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / [python 那些事] [初级练习] 简单爬虫武汉加油

[python 那些事] [初级练习] 简单爬虫武汉加油

【[python 那些事] [初级练习] 简单爬虫武汉加油】教程文章相关的互联网学习教程文章