首页 / PYTHON / Python高级应用程序设计任务要求

Python高级应用程序设计任务要求

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python高级应用程序设计任务要求，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4525字，纯文字阅读大概需要7分钟。

内容图文

一、主题式网络爬虫设计方案（15分）

1.主题式网络爬虫名称

网易云歌曲排行榜歌曲时长

2.主题式网络爬虫爬取的内容与数据特征分析

主要是爬取网易云里面的歌名，歌手和歌曲时长。

对网易云歌曲的时长做一个可视化表格。

3.主题式网络爬虫设计方案概述（包括实现思路与技术难点）

实现思路：利用requests的get方法访问网站。

用xpath方法解析网页原码。

技术难点：需要下载最新版本的谷歌，还需要安装谷歌的驱动否则运行不出来。

二、主题页面的结构特征分析（15分）
1.主题页面的结构特征

Python高级应用程序设计任务要求 - 文章图片

2.Htmls页面解析

Python高级应用程序设计任务要求 - 文章图片

3.节点（标签）查找方法与遍历方法
（必要时画出节点树结构）

根据F12中的数据查找到相应位置并requests.get()，再利用正则找到正确的数据并保存起来

三、网络爬虫程序设计（60分）
爬虫程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后面提供输出结果的截图。
1.数据爬取与采集

爬取的代码如下：

from lxml import etree
from selenium import webdriver
import pandas as pd
class WangyiMusic():
    # 请求的地址 云音乐飙升榜
    url = "https://music.163.com/#/discover/toplist?id=19723756"

    def __init__(self):
        #选择浏览器驱动 chromedriver.exe
        self.browser = webdriver.Chrome(executable_path="D:\python\chromedriver.exe")
        if self.get_HTML():
            self.parse_HTML()

    #由于页面的歌曲信息都存放在页面的ifram里面，所以采用Selenium进入子页面获得源码
    def get_HTML(self):
        #使用get方法访问网站
        self.browser.get(self.url)
        self.browser.switch_to_frame('contentFrame')
        iframe = self.browser.page_source
        return iframe
    
    #用xpath方法解析网页原码
    def parse_HTML(self):
        iframe = self.get_HTML()
        html = etree.HTML(iframe)

        try:
            #获取排名
            num = html.xpath('//td/div/span[@class = "num"]/text()')
            #获取歌名
            song = html.xpath('//td//div/span[@class="txt"]/a/b/@title')
            #获取歌手
            singer = html.xpath('//td/div[@class = "text"]/@title')
            #获取歌曲时长
            time = html.xpath('//td[@class = " s-fc3"]/span[@class = "u-dur "]/text()')            
            #DataFrame列名
            columns_list = ['歌名','歌手','时长']
            #将歌名、歌手和时长用zip函数转换成一个列表数据类型
            data = list(zip(song,singer,time))
            #用排名做行索引
            index_list = num
            #转换成DataFram数据
            dataFrame = pd.DataFrame(data,index = index_list,columns = columns_list)
            #避免多次运行爬取，将数据存入csv文件中，做后续的数据分析
            dataFrame.to_csv(".wangyiMusic.csv")
            return dataFrame
        except Exception as e:
            print('解析失败！',e.args)

object = WangyiMusic()
print(object.parse_HTML())

运行结果如下：

2.对数据进行清洗和处理

#输出网易云数据文件的前5行
data=pd.DataFrame(pd.read_csv('./wangyiMusic.csv'))
data.head()

Python高级应用程序设计任务要求 - 文章图片

#删除无效列
data.drop(1,axis=0,inplace=True)
data.head()

Python高级应用程序设计任务要求 - 文章图片

#查找重复值
data.duplicated()

Python高级应用程序设计任务要求 - 文章图片

#删除重复值
data=data.drop_duplicates()
data.head()

Python高级应用程序设计任务要求 - 文章图片

#空值处理
data['歌名'].isnull().value_counts()

Python高级应用程序设计任务要求 - 文章图片

#异常值处理
data.describe()

Python高级应用程序设计任务要求 - 文章图片

3.文本分析（可选）：jieba分词、wordcloud可视化

4.数据分析与可视化
（例如：数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等）

Python高级应用程序设计任务要求 - 文章图片

5.数据持久化

Python高级应用程序设计任务要求 - 文章图片

6.附完整程序代码

from lxml import etree
from selenium import webdriver
import pandas as pd
class WangyiMusic():
    # 请求的地址 云音乐飙升榜
    url = "https://music.163.com/#/discover/toplist?id=19723756"

    def __init__(self):
        #选择浏览器驱动 chromedriver.exe
        self.browser = webdriver.Chrome(executable_path="D:\python\chromedriver.exe")
        if self.get_HTML():
            self.parse_HTML()

    #由于页面的歌曲信息都存放在页面的ifram里面，所以采用Selenium进入子页面获得源码
    def get_HTML(self):
        #使用get方法访问网站
        self.browser.get(self.url)
        self.browser.switch_to_frame('contentFrame')
        iframe = self.browser.page_source
        return iframe
    
    #用xpath方法解析网页原码
    def parse_HTML(self):
        iframe = self.get_HTML()
        html = etree.HTML(iframe)

        try:
            #获取排名
            num = html.xpath('//td/div/span[@class = "num"]/text()')
            #获取歌名
            song = html.xpath('//td//div/span[@class="txt"]/a/b/@title')
            #获取歌手
            singer = html.xpath('//td/div[@class = "text"]/@title')
            #获取歌曲时长
            time = html.xpath('//td[@class = " s-fc3"]/span[@class = "u-dur "]/text()')            
            #DataFrame列名
            columns_list = ['歌名','歌手','时长']
            #将歌名、歌手和时长用zip函数转换成一个列表数据类型
            data = list(zip(song,singer,time))
            #用排名做行索引
            index_list = num
            #转换成DataFram数据
            dataFrame = pd.DataFrame(data,index = index_list,columns = columns_list)
            #避免多次运行爬取，将数据存入csv文件中，做后续的数据分析
            dataFrame.to_csv(".wangyiMusic.csv")
            return dataFrame
        except Exception as e:
            print('解析失败！',e.args)

object = WangyiMusic()
print(object.parse_HTML())

四、结论（10分）
1.经过对主题数据的分析与可视化，可以得到哪些结论？

结论：

大部分的歌曲时长都集中在3-4分钟之间。

隔壁老樊，小鬼和华晨宇等歌手比较受听众喜爱。

2.对本次程序设计任务完成的情况做一个简单的小结。

由于自己知识的缺乏在进行实操出现各种各样的错误，不断翻阅书籍才补缺补漏将代码写好。这次的作业让我python更进一步的了解也更加深了我的知识，是一次很好的学习过程。

内容总结

以上是互联网集市为您收集整理的Python高级应用程序设计任务要求全部内容，希望文章能够帮你解决Python高级应用程序设计任务要求所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/648723.html

来源：【匿名】

【上一篇】python-对小数进行操作【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python高级应用程序设计任务要求】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Flask本身就可以直接启动HTTP服务器，但是受限于管理、部署、性能等问题，在生产环境中，我们一般不会使用Flask自身所带的HTTP服务器。从现在已有的实践来看，对于Flask，比较好的部署方式是使用uWSGI做WSGI容器，Nginx做前端服务器。这样做的好处在于：1. uWSGI性能好，提供的功能也很多，运维方便。2. Nginx对于静态文件处理较好，而且默认支持uWSGI协议，在负载均衡和压力控制上都可以很方便的实现。现在说一下具体的部署步骤：...

Python | PyQt5编写计时器与倒计时应用程序【代码】

参考链接：用Python开发计时器程序 python自制定时器小例子及time模块详解原文：https://www.cnblogs.com/xdd1997/p/13126959.html

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

Windows，Python2环境下，当gVim配置了 set fileencoding=utf-8，则新建文件编码方式为utf-8。 ○ 如果代码不包含中文，或者仅包含中文注释，则utf-8编码方式可以用。只要在文件头加上 # -*- coding:utf-8 -*- 即可。可以在gVim中使用命令 :set fileencoding来查看文档编码方式，如果不是utf-8，则可以使用命令 :set fileencoding=utf-8来设置。 ○ 如果代码正文包含中文，则utf-8编码方式不可用，因为Windows默认的中文编码方...

python,面向对象编程的第1个小应用程序,游戏人生【代码】

应用python面向对象的基本功能,实现下面的"游戏人生"小程序class person:def__init__(self,name,gender,age,arg):self.name = nameself.gender = genderself.age = ageself.arg = argprint("Initiate status is:")self.show_status()def grass_fight(self):self.arg -= 200self.show_status()def self_exercize(self):self.arg += 100self.show_status()def multi_person(self):self.arg -= 500self.show_status()def show_status(...

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

IronPython for ASP.NET 的 CTP 已经发布有一段时间了，我们在看了官方提供的范例之后，相信对一个 ASP.NET 应用程序中完全使用 IronPython 开发还是有一些担心的。毕竟目前仅仅是 CTP 版本，并且缺乏 Visual Studio 的 Intellisence 的支持，在调试方面也有一些不足。不过，今天我做了一些实验，发现可以在已有的 C# 的 ASP.NET 项目中引入 IronPython，而不会影响到原先程序的功能，这样，我们就可以混合使用 C#, IronPython 两种...

python – Windows上应用程序缓存的适当位置

我的应用程序将一些数据缓存在磁盘上.由于缓存可能很大,因此不应将其存储在网络驱动器上.它应该在应用程序的调用之间持续存在.我有一个机制让用户选择一个位置,但希望默认是合理的,并且平台的“正确的东西”. 这种缓存的适当位置是什么？是否有用于确定适当位置的API？我如何从Python调用它？解决方法:看看这里：http://en.wikipedia.org/wiki/Environment_variable#User_management_variables.用户目录下的任何内容都是好的.如果它...

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

我在浏览器中为我的app-engine应用程序缓存图像时遇到了一些问题我发送最后修改,过期和缓存控制标头,但每次都从服务器加载图像.这是代码的标题部分：响应[‘Content-Type’] =’image / jpg’ response [‘Last-Modified’] = current_time.strftime(‘％a,％d％b％Y％H：％M：％S GMT’) 响应[‘Expires’] = current_time timedelta(天= 30) response [‘Cache-Control’] =’public,max-age = 2592000′解决方法:以下是dpaste ...

Django / Python应用程序日志记录不起作用【代码】

我是Python的完全noob.现在我正在设置一个新项目,在某些时候我不得不调用./manage.py syncdb.这是我收到的：Traceback (most recent call last):File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/logging/handlers.py", line 820, in _connect_unixsocketself.socket.connect(address) FileNotFoundError: [Errno 2] No such file or directoryDuring handling of the above exception, another exception ...

在iPhone OS应用程序中使用Ruby / Python代码？

我的应用程序需要使用仅适用于Python和Ruby的库.根据我的理解,Apple允许Ruby在iPhone上运行,只要用户不能执行任意代码(Rhomobile使用Ruby). 如何将Ruby / Python与我的应用程序捆绑在一起,从我的Obj-C代码调用函数,并以C或Obj-C格式获取结果(字符串)？解决方法:你不能.新的SDK协议prohibits using original languages other than C, C++, or Objective-C和SDK协议一直禁止动态解释代码.关于如何强制执行这些规则存在一些含糊之处,但...

python3+PyQt5实现支持多线程的页面索引器应用程序

这篇文章主要为大家详细介绍了python3+PyQt5实现支持多线程的页面索引器应用程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文通过Python3+pyqt5实现了python Qt GUI 快速编程的19章的页面索引器应用程序例子。/home/yrd/eric_workspace/chap19/walker_ans.py#!/usr/bin/env python3import codecs import html.entities import re import sys from PyQt5.QtCore import (QMutex, QThread,pyqtSignal,Qt)class Walker(QT...

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

最近项目组开发的一个小工具想要在右键菜单中添加打开方式，以有道云笔记为例进行了需求拆解和代码编写1.需求拆解：如何实现手动添加右键菜单的打开方式：Step1：打开注册表编辑器，Win+R->输入 “regedit”Step2：在HKEY_CLASSES_ROOT/*/shell (或者HKEY_LOCAL_MACHINE/SOFTWARE/Classes/*/shell ，两个目录是一样的) 添加一个key：YNote，然后在该项中新建项command,然后再编辑字符串，添加应用程序的路径，最后再路径和名称的后...

Python的Flask框架构建大型Web应用程序的结构

虽说Flask是一个以轻量级著称的框架,但也为大型Web应用提供了诸如单元测试与数据库迁移等许多便利的功能,这里我们来看一下使用Python的Flask框架构建大型Web应用程序的结构示例:虽然小型web应用程序用单个脚本可以很方便，但这种方法却不能很好地扩展。随着应用变得复杂，在单个大的源文件中处理会变得问题重重。与大多数其他web框架不同，Flask对大型项目没有特定的组织方式；应用程序的结构完全交给开发人员自己决定。在这一章，...

Python的Django应用程序解决AJAX跨域访问

针对Django中在编写供AJAX调用的API时碰到的跨域问题,我们来总结下Python的Django应用程序解决AJAX跨域访问问题的方法,其中使用GitHub上开源分享的django-cors-headers尤其推荐引子使用Django在服务器端写了一个API，返回一个JSON数据。使用Ajax调用该API：<!DOCTYPE HTML> <html> <head><meta charset="utf-8"><meta name="viewport" content="maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width,initial-s...

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序，分享给大家供大家参考。具体方法如下：#!/usr/bin/python # -*- coding: utf-8 -*- import Imageimport win32ui import win32gui def make_regalur_image(img, size = (256, 256)): return img.resize(size).convert(RGB) def split_image(img, part_size = (64, 64)): w, h = img.size pw, ph = part_size assert w % pw == h % ph == 0 return [img.crop((i, j, i+pw, j+p...

python应用程序在windows下不出现cmd窗口的办法

python写的GTK程序，会有这样一个怪现象，本来在cmd下用 python xxx.py 启动，还好好的，但是用py2exe编译以后，再用subprocess调用命令行程序的时候，就发现一个黑乎乎的cmd窗口跳出来了，特别难看，要消除它其实也还比较容易，但是要使用startupinfo这个windows only的参数，以下代码是linux和windows通用的例子：代码如下:if os.name == nt: startupinfo = subprocess.STARTUPINFO() startupinfo.dwFlags |= subprocess....

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python高级应用程序设计任务要求

Python高级应用程序设计任务要求

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务要求】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Python | PyQt5编写计时器与倒计时应用程序【代码】

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

python,面向对象编程的第1个小应用程序,游戏人生【代码】

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

python – Windows上应用程序缓存的适当位置

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

Django / Python应用程序日志记录不起作用【代码】

在iPhone OS应用程序中使用Ruby / Python代码？

python3+PyQt5实现支持多线程的页面索引器应用程序

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

Python的Flask框架构建大型Web应用程序的结构

Python的Django应用程序解决AJAX跨域访问

python实现根据图标提取分类应用程序实例

python应用程序在windows下不出现cmd窗口的办法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程