首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python高级应用程序设计任务，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4063字，纯文字阅读大概需要6分钟。

内容图文

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

一、主题式网络爬虫设计方案（15分）
1.主题式网络爬虫名称

爬取B站排行榜中的总站榜的三日排行
2.主题式网络爬虫爬取的内容与数据特征分析

爬取内容：排名、视频名、排放量、弹幕数、up主、综合评分、视频链接

数据特征分析：分析排名、播放量、弹幕数和综合评分的关系
3.主题式网络爬虫设计方案概述（包括实现思路与技术难点）

实现思路：

1.利用xlsxwriter建表

2.使用requests的get方法爬取页面源代码

3.使用re正则表达式爬取数据并存入表格

技术难点：

1.数据爬取时会出现错误

2.数据存入时会变成乱码

二、主题页面的结构特征分析（15分）

1.主题页面的结构特征

按F12查看，发现需爬取的数据皆为静态

Python高级应用程序设计任务 - 文章图片

2.Htmls页面解析

div class=“content”标签中的便是要爬取的内容

Python高级应用程序设计任务 - 文章图片
3.节点（标签）查找方法与遍历方法
（必要时画出节点树结构）

利用requests中的get方法爬取网页，re中的findall的方法来遍历和查找需要获取的节点

三、网络爬虫程序设计（60分）
爬虫程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后面提供输出结果的截图。
1.数据爬取与采集

爬虫程序的代码如下：

Python高级应用程序设计任务 - 文章图片

运行后生成表格

结果如下：

Python高级应用程序设计任务 - 文章图片
2.对数据进行清洗和处理

数据清洗：

导入数据

Python高级应用程序设计任务 - 文章图片

删除列

Python高级应用程序设计任务 - 文章图片

查找重复值

Python高级应用程序设计任务 - 文章图片

删除重复值

Python高级应用程序设计任务 - 文章图片

查询空值，返回无空值

Python高级应用程序设计任务 - 文章图片

查询异常值

Python高级应用程序设计任务 - 文章图片

3.文本分析（可选）：jieba分词、wordcloud可视化
4.数据分析与可视化

用散点图分析排名和综合评分的分布：

Python高级应用程序设计任务 - 文章图片

用盒图分析排名和综合评分的分布：

Python高级应用程序设计任务 - 文章图片

用直方图分析综合评分的分布：

Python高级应用程序设计任务 - 文章图片

用回归图分析排名和综合评分的关系：

Python高级应用程序设计任务 - 文章图片
（例如：数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等）
5.数据持久化

Python高级应用程序设计任务 - 文章图片

6.附完整程序代码

#导入必须库
import requests
import re
import xlsxwriter
import pandas as pd
import numpy as np
import seaborn as sns
import sklearn
#创建一个函数
def bilibili_craw():
    #创建一个文件
    #为文件命名
    workbook=xlsxwriter.Workbook('B站全站排行榜.xlsx')
    #向文件添加数据
    worksheet=workbook.add_worksheet('Data')
    #为文件每一列命名
    row0=['rank','name','play','view','author','score','line']

    #循环
    for i in range(0,len(row0)):
        worksheet.write(0,i,row0[i])
    #获取网站源代码
    url='https://www.bilibili.com/ranking/all/0/0/3'
    r=requests.get(url)
    rs=r.text

    #循环
    for i in range(1,101):
        try:
            #使用正则表达式获取排名
            p='<li class="rank-item"><div class="num">{0}</div><div class="content"><div class="img">(.+)'.format(i)
            n=re.compile(p).findall(rs)
            #如果排名不为0，则执行下面的循环

            if len(n)!=0:
                #用正则表达式爬取视频名
                p_title='<img alt="(.*?)" src="">'
                v_title=re.compile(p_title).findall(n[0])
                #用正则表达式爬取播放量
                p_play='<span class="data-box"><i class="b-icon play"></i>(.*?)</span>'
                v_play=re.compile(p_play).findall(n[0])
                # 用正则表达式爬取弹幕数
                p_view='<span class="data-box"><i class="b-icon view"></i>(.*?)</span>'
                v_view=re.compile(p_view).findall(n[0])
                # 用正则表达式爬取up主
                p_author='<span class="data-box"><i class="b-icon author"></i>(.*?)</span>'
                v_author=re.compile(p_author).findall(n[0])
                # 用正则表达式爬取综合评分
                p_score='<div>(.*?)</div>'
                v_score=re.compile(p_score).findall(n[0])
                # 用正则表达式爬取视频链接
                p_line='<a href="(.*?)" target="_blank">'
                v_line=re.compile(p_line).findall(n[0])

                #向文件写入爬取到的数据
                row1=[i,v_title[0],v_play[0],v_view[0],v_author[0],v_score[0],v_line[0]]
                #循环
                for j in range(0,len(row1)):
                    worksheet.write(i,j,row1[j])
        except:
            continue
    #关闭文件
    workbook.close()

#运行函数
bilibili_craw()
#导入数据
ranking=pd.DataFrame(pd.read_excel('D:\pycharm\爬虫\B站全站排行榜.xlsx'))
#显示数据前5行
ranking.head()
#删除视频链接那一列
ranking.drop('line',axis=1,inplace=True)
ranking.head()
#查找重复值
ranking.duplicated()
#删除重复值
ranking=ranking.drop_duplicates()
#输出数据前五行
ranking.head()
#查询是否有空值
ranking['rank'].isnull().value_counts()
#异常值查询
ranking.describe()
#绘制散点图
sns.jointplot(x="rank",y="score",data=ranking)
#绘制盒图
sns.boxplot(x='rank',y='score',data=ranking)
#绘制直方图查看score的分布
sns.distplot(ranking['score'])
#绘制回归图
sns.regplot(x='score',y='rank',data=ranking,color='b')

四、结论（10分）
1.经过对主题数据的分析与可视化，可以得到哪些结论？

排名越高，综合评分越高

排名越高并不代表观看量，弹幕数越多，但观看量和弹幕数越多，排名都不低
2.对本次程序设计任务完成的情况做一个简单的小结。

通过这次学习，初步了解了python的爬虫功能，对requests库和正则表达式，也有一定的了解，也对如何爬取HTML页面标签信息有了了解。

内容总结

以上是互联网集市为您收集整理的Python高级应用程序设计任务全部内容，希望文章能够帮你解决Python高级应用程序设计任务所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/648787.html

来源：【匿名】

【上一篇】Python高级应用程序设计任务【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Flask本身就可以直接启动HTTP服务器，但是受限于管理、部署、性能等问题，在生产环境中，我们一般不会使用Flask自身所带的HTTP服务器。从现在已有的实践来看，对于Flask，比较好的部署方式是使用uWSGI做WSGI容器，Nginx做前端服务器。这样做的好处在于：1. uWSGI性能好，提供的功能也很多，运维方便。2. Nginx对于静态文件处理较好，而且默认支持uWSGI协议，在负载均衡和压力控制上都可以很方便的实现。现在说一下具体的部署步骤：...

Python | PyQt5编写计时器与倒计时应用程序【代码】

参考链接：用Python开发计时器程序 python自制定时器小例子及time模块详解原文：https://www.cnblogs.com/xdd1997/p/13126959.html

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

Windows，Python2环境下，当gVim配置了 set fileencoding=utf-8，则新建文件编码方式为utf-8。 ○ 如果代码不包含中文，或者仅包含中文注释，则utf-8编码方式可以用。只要在文件头加上 # -*- coding:utf-8 -*- 即可。可以在gVim中使用命令 :set fileencoding来查看文档编码方式，如果不是utf-8，则可以使用命令 :set fileencoding=utf-8来设置。 ○ 如果代码正文包含中文，则utf-8编码方式不可用，因为Windows默认的中文编码方...

python,面向对象编程的第1个小应用程序,游戏人生【代码】

应用python面向对象的基本功能,实现下面的"游戏人生"小程序class person:def__init__(self,name,gender,age,arg):self.name = nameself.gender = genderself.age = ageself.arg = argprint("Initiate status is:")self.show_status()def grass_fight(self):self.arg -= 200self.show_status()def self_exercize(self):self.arg += 100self.show_status()def multi_person(self):self.arg -= 500self.show_status()def show_status(...

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

IronPython for ASP.NET 的 CTP 已经发布有一段时间了，我们在看了官方提供的范例之后，相信对一个 ASP.NET 应用程序中完全使用 IronPython 开发还是有一些担心的。毕竟目前仅仅是 CTP 版本，并且缺乏 Visual Studio 的 Intellisence 的支持，在调试方面也有一些不足。不过，今天我做了一些实验，发现可以在已有的 C# 的 ASP.NET 项目中引入 IronPython，而不会影响到原先程序的功能，这样，我们就可以混合使用 C#, IronPython 两种...

python – Windows上应用程序缓存的适当位置

我的应用程序将一些数据缓存在磁盘上.由于缓存可能很大,因此不应将其存储在网络驱动器上.它应该在应用程序的调用之间持续存在.我有一个机制让用户选择一个位置,但希望默认是合理的,并且平台的“正确的东西”. 这种缓存的适当位置是什么？是否有用于确定适当位置的API？我如何从Python调用它？解决方法:看看这里：http://en.wikipedia.org/wiki/Environment_variable#User_management_variables.用户目录下的任何内容都是好的.如果它...

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

我在浏览器中为我的app-engine应用程序缓存图像时遇到了一些问题我发送最后修改,过期和缓存控制标头,但每次都从服务器加载图像.这是代码的标题部分：响应[‘Content-Type’] =’image / jpg’ response [‘Last-Modified’] = current_time.strftime(‘％a,％d％b％Y％H：％M：％S GMT’) 响应[‘Expires’] = current_time timedelta(天= 30) response [‘Cache-Control’] =’public,max-age = 2592000′解决方法:以下是dpaste ...

Django / Python应用程序日志记录不起作用【代码】

我是Python的完全noob.现在我正在设置一个新项目,在某些时候我不得不调用./manage.py syncdb.这是我收到的：Traceback (most recent call last):File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/logging/handlers.py", line 820, in _connect_unixsocketself.socket.connect(address) FileNotFoundError: [Errno 2] No such file or directoryDuring handling of the above exception, another exception ...

在iPhone OS应用程序中使用Ruby / Python代码？

我的应用程序需要使用仅适用于Python和Ruby的库.根据我的理解,Apple允许Ruby在iPhone上运行,只要用户不能执行任意代码(Rhomobile使用Ruby). 如何将Ruby / Python与我的应用程序捆绑在一起,从我的Obj-C代码调用函数,并以C或Obj-C格式获取结果(字符串)？解决方法:你不能.新的SDK协议prohibits using original languages other than C, C++, or Objective-C和SDK协议一直禁止动态解释代码.关于如何强制执行这些规则存在一些含糊之处,但...

python3+PyQt5实现支持多线程的页面索引器应用程序

这篇文章主要为大家详细介绍了python3+PyQt5实现支持多线程的页面索引器应用程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文通过Python3+pyqt5实现了python Qt GUI 快速编程的19章的页面索引器应用程序例子。/home/yrd/eric_workspace/chap19/walker_ans.py#!/usr/bin/env python3import codecs import html.entities import re import sys from PyQt5.QtCore import (QMutex, QThread,pyqtSignal,Qt)class Walker(QT...

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

最近项目组开发的一个小工具想要在右键菜单中添加打开方式，以有道云笔记为例进行了需求拆解和代码编写1.需求拆解：如何实现手动添加右键菜单的打开方式：Step1：打开注册表编辑器，Win+R->输入 “regedit”Step2：在HKEY_CLASSES_ROOT/*/shell (或者HKEY_LOCAL_MACHINE/SOFTWARE/Classes/*/shell ，两个目录是一样的) 添加一个key：YNote，然后在该项中新建项command,然后再编辑字符串，添加应用程序的路径，最后再路径和名称的后...

Python的Flask框架构建大型Web应用程序的结构

虽说Flask是一个以轻量级著称的框架,但也为大型Web应用提供了诸如单元测试与数据库迁移等许多便利的功能,这里我们来看一下使用Python的Flask框架构建大型Web应用程序的结构示例:虽然小型web应用程序用单个脚本可以很方便，但这种方法却不能很好地扩展。随着应用变得复杂，在单个大的源文件中处理会变得问题重重。与大多数其他web框架不同，Flask对大型项目没有特定的组织方式；应用程序的结构完全交给开发人员自己决定。在这一章，...

Python的Django应用程序解决AJAX跨域访问

针对Django中在编写供AJAX调用的API时碰到的跨域问题,我们来总结下Python的Django应用程序解决AJAX跨域访问问题的方法,其中使用GitHub上开源分享的django-cors-headers尤其推荐引子使用Django在服务器端写了一个API，返回一个JSON数据。使用Ajax调用该API：<!DOCTYPE HTML> <html> <head><meta charset="utf-8"><meta name="viewport" content="maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width,initial-s...

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序，分享给大家供大家参考。具体方法如下：#!/usr/bin/python # -*- coding: utf-8 -*- import Imageimport win32ui import win32gui def make_regalur_image(img, size = (256, 256)): return img.resize(size).convert(RGB) def split_image(img, part_size = (64, 64)): w, h = img.size pw, ph = part_size assert w % pw == h % ph == 0 return [img.crop((i, j, i+pw, j+p...

python应用程序在windows下不出现cmd窗口的办法

python写的GTK程序，会有这样一个怪现象，本来在cmd下用 python xxx.py 启动，还好好的，但是用py2exe编译以后，再用subprocess调用命令行程序的时候，就发现一个黑乎乎的cmd窗口跳出来了，特别难看，要消除它其实也还比较容易，但是要使用startupinfo这个windows only的参数，以下代码是linux和windows通用的例子：代码如下:if os.name == nt: startupinfo = subprocess.STARTUPINFO() startupinfo.dwFlags |= subprocess....

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Python | PyQt5编写计时器与倒计时应用程序【代码】

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

python,面向对象编程的第1个小应用程序,游戏人生【代码】

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

python – Windows上应用程序缓存的适当位置

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

Django / Python应用程序日志记录不起作用【代码】

在iPhone OS应用程序中使用Ruby / Python代码？

python3+PyQt5实现支持多线程的页面索引器应用程序

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

Python的Flask框架构建大型Web应用程序的结构

Python的Django应用程序解决AJAX跨域访问

python实现根据图标提取分类应用程序实例

python应用程序在windows下不出现cmd窗口的办法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程