首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python高级应用程序设计任务，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5025字，纯文字阅读大概需要8分钟。

内容图文

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

一、主题式网络爬虫设计方案（15分） 1.主题式网络爬虫名称 爬取最好大学网软科中国最好大学排名2019 2.主题式网络爬虫爬取的内容与数据特征分析 爬取的内容：排名、学校名称、省市、总分和指标得分【生源质量(新生高考成绩得分)】等信息。 数据特征分析：统计出每个省份各有几所学校。 3.主题式网络爬虫设计方案概述（包括实现思路与技术难点） 实现思路:本次爬虫使用scrapy框架的downloader发送request请求并获取网页数据，通过spider清洗数据，使用item pipeline将获取的数据进行写入excel的操作。

技术难点:openpyxl、matplotlib、scrapy的综合使用。

二、主题页面的结构特征分析（15分）
1.主题页面的结构特征 此页面如下： ?

此页面的URL如下：

http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html

请求方法为:GET

2.Htmls页面解析 通过F12查看网页源代码，下面是部分源代码的截图，红色框是我们需要获取的具体数据。

通过Elements分析可知，每一个院校都放在了一个tr中，排名在tr标签的第一个td中，学校名称在tr标签的第二个td标签中，省市在tr标签的第三个td标签中，总分在tr标签的第四个td标签中，指标得分在tr标签的第五个td中。

3.节点（标签）查找方法与遍历方法
（必要时画出节点树结构）首先通过response.xpath获取所有tr的列表(所有学校的列表),然后循环遍历这个列表，得到每一个学校的所有信息，使用xpath语法，tr/td[1]/text()获取学校排名，使用tr/td[2]/div/text()获取学校名称，使用tr/td[3]/text()获取省份，使用tr/td[4]/text()获取总分，使用tr/td[5]/text()获取指标得分。? 三、网络爬虫程序设计（60分）
爬虫程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后面提供输出结果的截图。
1.数据爬取与采集

2.对数据进行清洗和处理

3.文本分析（可选）：jieba分词、wordcloud可视化
4.数据分析与可视化
（例如：数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等）

5.数据持久化

?6.附完整程序代码

本任务是使用scrapy框架完成的

best_university_spider.py中

import scrapy
from china_best_university.items import ChinaBestUniversityItem
class BestUniversitySpiserSpider(scrapy.Spider):
    name = 'best_university_spider'  # 爬虫名字
    
    start_urls = ['http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html']  # 爬取初始地址

    def parse(self, response):
        item = ChinaBestUniversityItem()
        all_tr_list = response.xpath('//tbody/tr')
        for every_td in all_tr_list:
            item['ranking'] = every_td.xpath('td[1]/text()').extract()  # 获取排名
            item['name'] = every_td.xpath('td[2]/div/text()').extract()  # 获取名字
            item['area'] = every_td.xpath('td[3]/text()').extract()  # 获取省份
            item['total_score'] = every_td.xpath('td[4]/text()').extract()  # 获取总分
            item['index_score'] = every_td.xpath('td[5]/text()').extract()  # 获取指标得分
            yield item

pipelines.py中

from collections import Counter
from matplotlib import pyplot
from openpyxl import Workbook

list_x = []


class ChinaBestUniversityPipeline(object):

    def __init__(self):
        self.wb = Workbook()  
        self.ws = self.wb.active 
        self.ws.append(['排名', '学校名称    ', '省市', '总分   ', '指标得分'])  
    
    def process_item(self, item, spider):
        
        line = [item['ranking'][0], item['name'][0], item['area'][0], item['total_score'][0],
                item['index_score'][0]]  # 写入爬取的数据
        self.ws.append(line)
        self.wb.save('bestunversity.xlsx')  # 保存
        list_x.append(item['area'][0])  # 爬取的数据添加到全局变量的list_x中,用于关闭爬取的close_spider时的数据分析

    def close_spider(self, item):
        global list_x
        # 解包字典，获取x轴和y轴的数据列表
        x = list(Counter(list_x).keys())
        y = list(Counter(list_x).values())
        print(Counter(list_x))
        # 设置matplotlib正常显示中文和负号
        pyplot.rcParams['font.sans-serif'] = ['SimHei']
        pyplot.rcParams['axes.unicode_minus'] = False
        # 生成画布
        pyplot.figure(figsize=(20, 8), dpi=80)
        # 画图
        pyplot.bar(x, y, width=0.5, color=['b', 'r', 'g', 'y', 'c', 'm', 'y', 'k', 'c', 'b', 'r'])
        # 保存图片
        pyplot.savefig('bestunarea.png')
        # 显示图片
        pyplot.show()

settings.py中

BOT_NAME = 'china_best_university'

SPIDER_MODULES = ['china_best_university.spiders']
NEWSPIDER_MODULE = 'china_best_university.spiders'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' 
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
    'china_best_university.pipelines.ChinaBestUniversityPipeline': 300,  # 开启中间件
}
LOG_LEVEL = 'WARNING'

items.py中

import scrapy


class ChinaBestUniversityItem(scrapy.Item):
   
    ranking = scrapy.Field()  # 排名
    name = scrapy.Field()  # 名称
    area = scrapy.Field()  # 省份
    total_score = scrapy.Field()  # 总分
    index_score = scrapy.Field()  # 指标得分

最后：打开terminal，输入scrapy crawl best_university_spider,回车，然后我们所想要的结果就有了。

Python高级应用程序设计任务 - 文章图片

中间省略

Python高级应用程序设计任务 - 文章图片

? ? 四、结论（10分）
1.经过对主题数据的分析与可视化，可以得到哪些结论？ 可以得到这些结论：中国最好的大学在北京有39所，江苏有37所，河南有30所等。
2.对本次程序设计任务完成的情况做一个简单的小结。通过这次作业，我知道了自己真的欠缺太多了。为了完成这次任务，进行了自学，查阅资料，请教同学和朋友，做了一遍又一遍，还爬取了两个例子，主要是在代码编写的过程中遇到很多问题。提交格式先在Word中进行草稿，最后才在博客园中进行提交。不过也收获了很多，首先对scrapy框架的整体有了一个充分的认识；其次对数据分析的作用有了深刻的了解，真正了解了数据分析的意义；最后，对于python操作excel的模块进行了系统的学习，这在今后的工作中是可以充分利用的。

内容总结

以上是互联网集市为您收集整理的Python高级应用程序设计任务全部内容，希望文章能够帮你解决Python高级应用程序设计任务所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/648612.html

来源：【匿名】

【上一篇】python 虚拟环境【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Flask本身就可以直接启动HTTP服务器，但是受限于管理、部署、性能等问题，在生产环境中，我们一般不会使用Flask自身所带的HTTP服务器。从现在已有的实践来看，对于Flask，比较好的部署方式是使用uWSGI做WSGI容器，Nginx做前端服务器。这样做的好处在于：1. uWSGI性能好，提供的功能也很多，运维方便。2. Nginx对于静态文件处理较好，而且默认支持uWSGI协议，在负载均衡和压力控制上都可以很方便的实现。现在说一下具体的部署步骤：...

Python | PyQt5编写计时器与倒计时应用程序【代码】

参考链接：用Python开发计时器程序 python自制定时器小例子及time模块详解原文：https://www.cnblogs.com/xdd1997/p/13126959.html

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

Windows，Python2环境下，当gVim配置了 set fileencoding=utf-8，则新建文件编码方式为utf-8。 ○ 如果代码不包含中文，或者仅包含中文注释，则utf-8编码方式可以用。只要在文件头加上 # -*- coding:utf-8 -*- 即可。可以在gVim中使用命令 :set fileencoding来查看文档编码方式，如果不是utf-8，则可以使用命令 :set fileencoding=utf-8来设置。 ○ 如果代码正文包含中文，则utf-8编码方式不可用，因为Windows默认的中文编码方...

python,面向对象编程的第1个小应用程序,游戏人生【代码】

应用python面向对象的基本功能,实现下面的"游戏人生"小程序class person:def__init__(self,name,gender,age,arg):self.name = nameself.gender = genderself.age = ageself.arg = argprint("Initiate status is:")self.show_status()def grass_fight(self):self.arg -= 200self.show_status()def self_exercize(self):self.arg += 100self.show_status()def multi_person(self):self.arg -= 500self.show_status()def show_status(...

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

IronPython for ASP.NET 的 CTP 已经发布有一段时间了，我们在看了官方提供的范例之后，相信对一个 ASP.NET 应用程序中完全使用 IronPython 开发还是有一些担心的。毕竟目前仅仅是 CTP 版本，并且缺乏 Visual Studio 的 Intellisence 的支持，在调试方面也有一些不足。不过，今天我做了一些实验，发现可以在已有的 C# 的 ASP.NET 项目中引入 IronPython，而不会影响到原先程序的功能，这样，我们就可以混合使用 C#, IronPython 两种...

python – Windows上应用程序缓存的适当位置

我的应用程序将一些数据缓存在磁盘上.由于缓存可能很大,因此不应将其存储在网络驱动器上.它应该在应用程序的调用之间持续存在.我有一个机制让用户选择一个位置,但希望默认是合理的,并且平台的“正确的东西”. 这种缓存的适当位置是什么？是否有用于确定适当位置的API？我如何从Python调用它？解决方法:看看这里：http://en.wikipedia.org/wiki/Environment_variable#User_management_variables.用户目录下的任何内容都是好的.如果它...

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

我在浏览器中为我的app-engine应用程序缓存图像时遇到了一些问题我发送最后修改,过期和缓存控制标头,但每次都从服务器加载图像.这是代码的标题部分：响应[‘Content-Type’] =’image / jpg’ response [‘Last-Modified’] = current_time.strftime(‘％a,％d％b％Y％H：％M：％S GMT’) 响应[‘Expires’] = current_time timedelta(天= 30) response [‘Cache-Control’] =’public,max-age = 2592000′解决方法:以下是dpaste ...

Django / Python应用程序日志记录不起作用【代码】

我是Python的完全noob.现在我正在设置一个新项目,在某些时候我不得不调用./manage.py syncdb.这是我收到的：Traceback (most recent call last):File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/logging/handlers.py", line 820, in _connect_unixsocketself.socket.connect(address) FileNotFoundError: [Errno 2] No such file or directoryDuring handling of the above exception, another exception ...

在iPhone OS应用程序中使用Ruby / Python代码？

我的应用程序需要使用仅适用于Python和Ruby的库.根据我的理解,Apple允许Ruby在iPhone上运行,只要用户不能执行任意代码(Rhomobile使用Ruby). 如何将Ruby / Python与我的应用程序捆绑在一起,从我的Obj-C代码调用函数,并以C或Obj-C格式获取结果(字符串)？解决方法:你不能.新的SDK协议prohibits using original languages other than C, C++, or Objective-C和SDK协议一直禁止动态解释代码.关于如何强制执行这些规则存在一些含糊之处,但...

python3+PyQt5实现支持多线程的页面索引器应用程序

这篇文章主要为大家详细介绍了python3+PyQt5实现支持多线程的页面索引器应用程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下本文通过Python3+pyqt5实现了python Qt GUI 快速编程的19章的页面索引器应用程序例子。/home/yrd/eric_workspace/chap19/walker_ans.py#!/usr/bin/env python3import codecs import html.entities import re import sys from PyQt5.QtCore import (QMutex, QThread,pyqtSignal,Qt)class Walker(QT...

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

最近项目组开发的一个小工具想要在右键菜单中添加打开方式，以有道云笔记为例进行了需求拆解和代码编写1.需求拆解：如何实现手动添加右键菜单的打开方式：Step1：打开注册表编辑器，Win+R->输入 “regedit”Step2：在HKEY_CLASSES_ROOT/*/shell (或者HKEY_LOCAL_MACHINE/SOFTWARE/Classes/*/shell ，两个目录是一样的) 添加一个key：YNote，然后在该项中新建项command,然后再编辑字符串，添加应用程序的路径，最后再路径和名称的后...

Python的Flask框架构建大型Web应用程序的结构

虽说Flask是一个以轻量级著称的框架,但也为大型Web应用提供了诸如单元测试与数据库迁移等许多便利的功能,这里我们来看一下使用Python的Flask框架构建大型Web应用程序的结构示例:虽然小型web应用程序用单个脚本可以很方便，但这种方法却不能很好地扩展。随着应用变得复杂，在单个大的源文件中处理会变得问题重重。与大多数其他web框架不同，Flask对大型项目没有特定的组织方式；应用程序的结构完全交给开发人员自己决定。在这一章，...

Python的Django应用程序解决AJAX跨域访问

针对Django中在编写供AJAX调用的API时碰到的跨域问题,我们来总结下Python的Django应用程序解决AJAX跨域访问问题的方法,其中使用GitHub上开源分享的django-cors-headers尤其推荐引子使用Django在服务器端写了一个API，返回一个JSON数据。使用Ajax调用该API：<!DOCTYPE HTML> <html> <head><meta charset="utf-8"><meta name="viewport" content="maximum-scale=1.0,minimum-scale=1.0,user-scalable=0,width=device-width,initial-s...

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序，分享给大家供大家参考。具体方法如下：#!/usr/bin/python # -*- coding: utf-8 -*- import Imageimport win32ui import win32gui def make_regalur_image(img, size = (256, 256)): return img.resize(size).convert(RGB) def split_image(img, part_size = (64, 64)): w, h = img.size pw, ph = part_size assert w % pw == h % ph == 0 return [img.crop((i, j, i+pw, j+p...

python应用程序在windows下不出现cmd窗口的办法

python写的GTK程序，会有这样一个怪现象，本来在cmd下用 python xxx.py 启动，还好好的，但是用py2exe编译以后，再用subprocess调用命令行程序的时候，就发现一个黑乎乎的cmd窗口跳出来了，特别难看，要消除它其实也还比较容易，但是要使用startupinfo这个windows only的参数，以下代码是linux和windows通用的例子：代码如下:if os.name == nt: startupinfo = subprocess.STARTUPINFO() startupinfo.dwFlags |= subprocess....

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

内容图文

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

nginx+uwsgi+flask搭建python-web应用程序【代码】

Python | PyQt5编写计时器与倒计时应用程序【代码】

Windows下，gVim编辑，Python2应用程序的乱码问题【图】

python,面向对象编程的第1个小应用程序,游戏人生【代码】

逐步改用 IronPython 开发你的 ASP.NET 应用程序【图】

python – Windows上应用程序缓存的适当位置

python – 浏览器中的图像缓存 – app-engine-patch应用程序【代码】

Django / Python应用程序日志记录不起作用【代码】

在iPhone OS应用程序中使用Ruby / Python代码？

python3+PyQt5实现支持多线程的页面索引器应用程序

详解python实现应用程序在右键菜单中添加打开方式步骤【图】

Python的Flask框架构建大型Web应用程序的结构

Python的Django应用程序解决AJAX跨域访问

python实现根据图标提取分类应用程序实例

python应用程序在windows下不出现cmd窗口的办法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

首页 / PYTHON / Python高级应用程序设计任务

Python高级应用程序设计任务

内容导读

内容图文

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）

内容总结

内容备注

内容手机端

【Python高级应用程序设计任务】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

用Python实现一个面向主题的网络爬虫程序，并完成以下内容：
（注：每人一题，主题内容自选，所有设计内容与源代码需提交到博客园平台）