首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python高级应用程序设计任务，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4342字，纯文字阅读大概需要7分钟。

内容图文

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

一、主题式网络爬虫设计方案（15分） 1.主题式网络爬虫名称

名称：爬取虾米音乐排行

2.主题式网络爬虫爬取的内容与数据特征分析

本次爬虫主要爬取虾米音乐排行榜和评论数

3.主题式网络爬虫设计方案概述（包括实现思路与技术难点）

本次设计方案主要使用request库和beautifulSoup库对网站访问，records数据持久化。

技术难点主要包括对虾米音乐网站页面的结构分析。

二、主题页面的结构特征分析（15分）
1.主题页面的结构特征

https://www.xiami.com/billboard/306

打开虾米音乐的官网，点击鼠标右键按“查看元素”或按“F12”打开网页源代码，查找自己所要爬取的内容 Python高级应用程序设计任务 - 文章图片

Python高级应用程序设计任务 - 文章图片

2.Htmls页面解析 Python高级应用程序设计任务 - 文章图片

Python高级应用程序设计任务 - 文章图片

3.节点（标签）查找方法与遍历方法
（必要时画出节点树结构）
查找方法：find 遍历方法：for循环嵌套
三、网络爬虫程序设计（60分）
爬虫程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后面提供输出结果的截图。
1.数据爬取与采集

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import requests
from bs4 import BeautifulSoup
import records


def getHtml(url):
    '''
    获取目标网页数据
    '''
    try:
        # 伪装UA
        ua = {'user-agent': 'Mozilla/5.0 Chrome/79.0.3945.88 Safari/537.36'}
        # 读取网页
        r = requests.get(url, headers=ua)
        # 获取状态
        r.raise_for_status()
        # 打印数据 print(r.text)
        # 返回数据
        return r.text
    except:
        return "Fail"

2.对数据进行清洗和处理

def parseHtml(html):
    # 数据数组
    datas = []
    # 结构解析
    soup = BeautifulSoup(html, "html.parser")
    # 获取排名
    ids = soup.select('.em.index')
    # 组号
    i = 0
    # 循环排名号
    for id in ids:
        # 字典
        data = {}
        # 获取编号
        idd = id.get_text()
        # 打印数据
        print(idd)
        # 获取歌曲名
        titles = soup.select('.song-name.em')[i].get_text()
        # 打印数据
        print(titles)
        # 获取歌手
        songer = soup.select('.singers.COMPACT')[i].get_text()
        # 打印数据
        print(songer)
        # 获取专辑
        album = soup.select('.album')[i].get_text()
        # 打印数据
        print(album)
        # 获取时长
        duration = soup.select('.duration')[i].get_text()
        # 打印数据
        print(duration)
        # 数组
        i = i + 1
        # 加入字典
        data['#'] = idd
        data['歌曲'] = titles
        data['歌手'] = songer
        data['专辑'] = album
        data['时长'] = duration
        # 加入数组
        datas.append(data)
    # 返回数组
    return datas


def main():
    # url
    url = "https://www.xiami.com/billboard/306"
    # 获取网页数据
    html = getHtml(url)
    # 解析网页结构
    list = parseHtml(html) 
    # 初始化组件
    results = records.RecordCollection(iter(list))
    # 文件流
    with open('list.xlsx', 'wb') as f:
        # 写入
        f.write(results.export('xlsx'))

3.文本分析（可选）：jieba分词、wordcloud可视化
4.数据分析与可视化
（例如：数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等） Python高级应用程序设计任务 - 文章图片

?5.数据持久化 ?6.附完整程序代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import requests
from bs4 import BeautifulSoup
import records


def getHtml(url):
    '''
    获取目标网页数据
    '''
    try:
        # 伪装UA
        ua = {'user-agent': 'Mozilla/5.0 Chrome/79.0.3945.88 Safari/537.36'}
        # 读取网页
        r = requests.get(url, headers=ua)
        # 获取状态
        r.raise_for_status()
        # 打印数据 print(r.text)
        # 返回数据
        return r.text
    except:
        return "Fail"


def parseHtml(html):
    # 数据数组
    datas = []
    # 结构解析
    soup = BeautifulSoup(html, "html.parser")
    # 获取排名
    ids = soup.select('.em.index')
    # 组号
    i = 0
    # 循环排名号
    for id in ids:
        # 字典
        data = {}
        # 获取编号
        idd = id.get_text()
        # 打印数据
        print(idd)
        # 获取歌曲名
        titles = soup.select('.song-name.em')[i].get_text()
        # 打印数据
        print(titles)
        # 获取歌手
        songer = soup.select('.singers.COMPACT')[i].get_text()
        # 打印数据
        print(songer)
        # 获取专辑
        album = soup.select('.album')[i].get_text()
        # 打印数据
        print(album)
        # 获取时长
        duration = soup.select('.duration')[i].get_text()
        # 打印数据
        print(duration)
        # 数组
        i = i + 1
        # 加入字典
        data['#'] = idd
        data['歌曲'] = titles
        data['歌手'] = songer
        data['专辑'] = album
        data['时长'] = duration
        # 加入数组
        datas.append(data)
    # 返回数组
    return datas


def main():
    # url
    url = "https://www.xiami.com/billboard/306"
    # 获取网页数据
    html = getHtml(url)
    # 解析网页结构
    list = parseHtml(html) 
    # 初始化组件
    results = records.RecordCollection(iter(list))
    # 文件流
    with open('list.xlsx', 'wb') as f:
        # 写入
        f.write(results.export('xlsx'))

四、结论（10分）
1.经过对主题数据的分析与可视化，可以得到哪些结论？通过对虾米音乐榜单爬虫，可以获取虾米音乐的榜单歌曲相关信息，例如歌名、歌手、专辑、时长、链接，得出了榜单前三的歌曲是：你的答案、那女孩对我说、嚣张。歌手分别是：阿冗、黄义达、en。时长分别是：03:39、04:30、04:13.
2.对本次程序设计任务完成的情况做一个简单的小结。通过本次的爬虫课程设计作业，我学习到?了利用Python语言爬虫的技巧。通过利用中国慕课MOOC、CSDN论坛等资源自学，提高了自学能力，不懂的疑问请教同学，学习了很多新知识，提高了沟通能力。虽然不是所有的细节都已经掌握，但正在不断进步中。很幸运学习了一门新技巧。

内容总结

以上是互联网集市为您收集整理的Python高级应用程序设计任务全部内容，希望文章能够帮你解决Python高级应用程序设计任务所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/648558.html

来源：【匿名】

【上一篇】Python:数字类型和字符串类型的内置方法【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Flask本身就可以直接启动HTTP服务器，但是受限于管理、部署、性能等问题，在生产环境中，我们一般不会使用Flask自身所带的HTTP服务器。从现在已有的实践来看，对于Flask，比较好的部署方式是使用uWSGI做WSGI容器，Nginx做前端服务器。这样做的好处在于：1. uWSGI性能好，提供的功能也很多，运维方便。2. Nginx对于静态文件处理较好，而且默认支持uWSGI协议，在负载均衡和压力控制上都可以很方便的实现。现在说一下具体的部署步骤：...

Python | PyQt5编写计时器与倒计时应用程序【代码】

参考链接：用Python开发计时器程序 python自制定时器小例子及time模块详解原文：https://www.cnblogs.com/xdd1997/p/13126959.html

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

Windows，Python2环境下，当gVim配置了 set fileencoding=utf-8，则新建文件编码方式为utf-8。 ○ 如果代码不包含中文，或者仅包含中文注释，则utf-8编码方式可以用。只要在文件头加上 # -*- coding:utf-8 -*- 即可。可以在gVim中使用命令 :set fileencoding来查看文档编码方式，如果不是utf-8，则可以使用命令 :set fileencoding=utf-8来设置。 ○ 如果代码正文包含中文，则utf-8编码方式不可用，因为Windows默认的中文编码方...

python,面向对象编程的第1个小应用程序,游戏人生【代码】

应用python面向对象的基本功能,实现下面的"游戏人生"小程序class person:def__init__(self,name,gender,age,arg):self.name = nameself.gender = genderself.age = ageself.arg = argprint("Initiate status is:")self.show_status()def grass_fight(self):self.arg -= 200self.show_status()def self_exercize(self):self.arg += 100self.show_status()def multi_person(self):self.arg -= 500self.show_status()def show_status(...

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

IronPython for ASP.NET 的 CTP 已经发布有一段时间了，我们在看了官方提供的范例之后，相信对一个 ASP.NET 应用程序中完全使用 IronPython 开发还是有一些担心的。毕竟目前仅仅是 CTP 版本，并且缺乏 Visual Studio 的 Intellisence 的支持，在调试方面也有一些不足。不过，今天我做了一些实验，发现可以在已有的 C# 的 ASP.NET 项目中引入 IronPython，而不会影响到原先程序的功能，这样，我们就可以混合使用 C#, IronPython 两种...

python – Windows上应用程序缓存的适当位置

我的应用程序将一些数据缓存在磁盘上.由于缓存可能很大,因此不应将其存储在网络驱动器上.它应该在应用程序的调用之间持续存在.我有一个机制让用户选择一个位置,但希望默认是合理的,并且平台的“正确的东西”. 这种缓存的适当位置是什么？是否有用于确定适当位置的API？我如何从Python调用它？解决方法:看看这里：http://en.wikipedia.org/wiki/Environment_variable#User_management_variables.用户目录下的任何内容都是好的.如果它...

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

我在浏览器中为我的app-engine应用程序缓存图像时遇到了一些问题我发送最后修改,过期和缓存控制标头,但每次都从服务器加载图像.这是代码的标题部分：响应[‘Content-Type’] =’image / jpg’ response [‘Last-Modified’] = current_time.strftime(‘％a,％d％b％Y％H：％M：％S GMT’) 响应[‘Expires’] = current_time timedelta(天= 30) response [‘Cache-Control’] =’public,max-age = 2592000′解决方法:以下是dpaste ...

Django / Python应用程序日志记录不起作用【代码】

我是Python的完全noob.现在我正在设置一个新项目,在某些时候我不得不调用./manage.py syncdb.这是我收到的：Traceback (most recent call last):File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/logging/handlers.py", line 820, in _connect_unixsocketself.socket.connect(address) FileNotFoundError: [Errno 2] No such file or directoryDuring handling of the above exception, another exception ...

在iPhone OS应用程序中使用Ruby / Python代码？

我的应用程序需要使用仅适用于Python和Ruby的库.根据我的理解,Apple允许Ruby在iPhone上运行,只要用户不能执行任意代码(Rhomobile使用Ruby). 如何将Ruby / Python与我的应用程序捆绑在一起,从我的Obj-C代码调用函数,并以C或Obj-C格式获取结果(字符串)？解决方法:你不能.新的SDK协议prohibits using original languages other than C, C++, or Objective-C和SDK协议一直禁止动态解释代码.关于如何强制执行这些规则存在一些含糊之处,但...

python3+PyQt5实现支持多线程的页面索引器应用程序

这篇文章主要为大家详细介绍了python3+PyQt5实现支持多线程的页面索引器应用程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文通过Python3+pyqt5实现了python Qt GUI 快速编程的19章的页面索引器应用程序例子。/home/yrd/eric_workspace/chap19/walker_ans.py#!/usr/bin/env python3import codecs import html.entities import re import sys from PyQt5.QtCore import (QMutex, QThread,pyqtSignal,Qt)class Walker(QT...

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

最近项目组开发的一个小工具想要在右键菜单中添加打开方式，以有道云笔记为例进行了需求拆解和代码编写1.需求拆解：如何实现手动添加右键菜单的打开方式：Step1：打开注册表编辑器，Win+R->输入 “regedit”Step2：在HKEY_CLASSES_ROOT/*/shell (或者HKEY_LOCAL_MACHINE/SOFTWARE/Classes/*/shell ，两个目录是一样的) 添加一个key：YNote，然后在该项中新建项command,然后再编辑字符串，添加应用程序的路径，最后再路径和名称的后...

Python的Flask框架构建大型Web应用程序的结构

虽说Flask是一个以轻量级著称的框架,但也为大型Web应用提供了诸如单元测试与数据库迁移等许多便利的功能,这里我们来看一下使用Python的Flask框架构建大型Web应用程序的结构示例:虽然小型web应用程序用单个脚本可以很方便，但这种方法却不能很好地扩展。随着应用变得复杂，在单个大的源文件中处理会变得问题重重。与大多数其他web框架不同，Flask对大型项目没有特定的组织方式；应用程序的结构完全交给开发人员自己决定。在这一章，...

Python的Django应用程序解决AJAX跨域访问

针对Django中在编写供AJAX调用的API时碰到的跨域问题,我们来总结下Python的Django应用程序解决AJAX跨域访问问题的方法,其中使用GitHub上开源分享的django-cors-headers尤其推荐引子使用Django在服务器端写了一个API，返回一个JSON数据。使用Ajax调用该API：<!DOCTYPE HTML> <html> <head><meta charset="utf-8"><meta name="viewport" content="maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width,initial-s...

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序，分享给大家供大家参考。具体方法如下：#!/usr/bin/python # -*- coding: utf-8 -*- import Imageimport win32ui import win32gui def make_regalur_image(img, size = (256, 256)): return img.resize(size).convert(RGB) def split_image(img, part_size = (64, 64)): w, h = img.size pw, ph = part_size assert w % pw == h % ph == 0 return [img.crop((i, j, i+pw, j+p...

python应用程序在windows下不出现cmd窗口的办法

python写的GTK程序，会有这样一个怪现象，本来在cmd下用 python xxx.py 启动，还好好的，但是用py2exe编译以后，再用subprocess调用命令行程序的时候，就发现一个黑乎乎的cmd窗口跳出来了，特别难看，要消除它其实也还比较容易，但是要使用startupinfo这个windows only的参数，以下代码是linux和windows通用的例子：代码如下:if os.name == nt: startupinfo = subprocess.STARTUPINFO() startupinfo.dwFlags |= subprocess....

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

内容图文

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Python | PyQt5编写计时器与倒计时应用程序【代码】

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

python,面向对象编程的第1个小应用程序,游戏人生【代码】

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

python – Windows上应用程序缓存的适当位置

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

Django / Python应用程序日志记录不起作用【代码】

在iPhone OS应用程序中使用Ruby / Python代码？

python3+PyQt5实现支持多线程的页面索引器应用程序

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

Python的Flask框架构建大型Web应用程序的结构

Python的Django应用程序解决AJAX跨域访问

python实现根据图标提取分类应用程序实例

python应用程序在windows下不出现cmd窗口的办法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

内容图文

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）