首页 / PYTHON / Python爬取招聘网站数据并做数据可视化

Python爬取招聘网站数据并做数据可视化

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取招聘网站数据并做数据可视化，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3697字，纯文字阅读大概需要6分钟。

内容图文

基本开发环境

· Python 3.6

· Pycharm

相关模块使用

爬虫模块

import requests
import re
import parsel
import csv

词云模块

import jieba

import wordcloud

目标网页分析

Python爬取招聘网站数据并做数据可视化 - 文章图片

通过开发者工具可以看到，获取返回数据后，数据是在window_search_result_里面，可以使用正则匹配数据。如下所示：

Python爬取招聘网站数据并做数据可视化 - 文章图片

https://jobs.51job.com/beijing/120995776.html?s=01&t=0

每一个招聘信息的详情页都是有对应的ID，只需要正则匹配提取ID值，通过拼接URL，然后再去招聘详情页提取招聘数据即可。

response = requests.get(url=url, headers=headers)
lis = re.findall('"jobid":"(\d+)"', response.text)
for li in lis:
    page_url = 'https://jobs.51job.com/beijing-hdq/{}.html?s=01&t=0'.format(li)

Python爬取招聘网站数据并做数据可视化 - 文章图片

虽然网站是静态网页，但是网页编码是乱码，在爬取的过程中需要转码。

f = open('招聘.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '地区', '工作经验', '学历', '薪资', '福利', '招聘人数', '发布日期'])
csv_writer.writeheader()
response = requests.get(url=page_url, headers=headers)
response.encoding = response.apparent_encoding
selector = parsel.Selector(response.text)
title = selector.css('.cn h1::text').get()      # 标题
salary = selector.css('div.cn strong::text').get()       # 薪资
welfare = selector.css('.jtag div.t1 span::text').getall()       # 福利
welfare_info = '|'.join(welfare)
data_info = selector.css('.cn p.msg.ltype::attr(title)').get().split('  |  ')
area = data_info[0]         # 地区
work_experience = data_info[1]      # 工作经验
educational_background = data_info[2]       # 学历
number_of_people = data_info[3]     # 招聘人数
release_date = data_info[-1].replace('发布', '')     # 发布日期
all_info_list = selector.css('div.tCompany_main > div:nth-child(1) > div p span::text').getall()
all_info = '\n'.join(all_info_list)
dit = {
    '标题': title,
    '地区': area,
    '工作经验': work_experience,
    '学历': educational_background,
    '薪资': salary,
    '福利': welfare_info,
    '招聘人数': number_of_people,
    '发布日期': release_date,
}
csv_writer.writerow(dit)
with open('招聘信息.txt', mode='a', encoding='utf-8') as f:
    f.write(all_info)

以上步骤即可完成关于招聘的相关数据爬取

简单粗略的数据清洗

薪资待遇：

content = pd.read_csv(r'D:\python\demo\数据分析\招聘\招聘.csv', encoding='utf-8')
salary = content['薪资']
salary_1 = salary[salary.notnull()]
salary_count = pd.value_counts(salary_1)

Python爬取招聘网站数据并做数据可视化 - 文章图片

学历要求：

content = pd.read_csv(r'D:\python\demo\数据分析\招聘\招聘.csv', encoding='utf-8')
educational_background = content['学历']
educational_background_1 = educational_background[educational_background.notnull()]
educational_background_count = pd.value_counts(educational_background_1).head()
print(educational_background_count)
bar = Bar()
bar.add_xaxis(educational_background_count.index.tolist())
bar.add_yaxis("学历", educational_background_count.values.tolist())
bar.render('bar.html')

Python爬取招聘网站数据并做数据可视化 - 文章图片

工作经验：

content = pd.read_csv(r'D:\python\demo\数据分析\招聘\招聘.csv', encoding='utf-8')
work_experience = content['工作经验']
work_experience_count = pd.value_counts(work_experience)
print(work_experience_count)
bar = Bar()
bar.add_xaxis(work_experience_count.index.tolist())
bar.add_yaxis("经验要求", work_experience_count.values.tolist())
bar.render('bar.html')

Python爬取招聘网站数据并做数据可视化 - 文章图片

词云分析，技术点要求

py = imageio.imread("python.png")
f = open('python招聘信息.txt', encoding='utf-8')

re_txt = f.read()
result = re.findall(r'[a-zA-Z]+', re_txt)
txt = ' '.join(result)

# jiabe 分词 分割词汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 词云图设置
wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='msyh.ttc',    # 词云字体
        mask=py,     # 所使用的词云图片
        scale=15,
        stopwords={' '},
        # contour_width=5,
        # contour_color='red'  # 轮廓颜色
)
# 给词云输入文字
wc.generate(string)
# 词云图保存图片地址
wc.to_file(r'python招聘信息.png')

内容总结

以上是互联网集市为您收集整理的Python爬取招聘网站数据并做数据可视化全部内容，希望文章能够帮你解决Python爬取招聘网站数据并做数据可视化所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/604133.html

来源：【匿名】

【上一篇】Python 学习目录【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python爬取招聘网站数据并做数据可视化】教程文章相关的互联网学习教程文章

PYTHON数据类型归纳与总结(1st)【代码】

PYTHON数据类型一、列表、字典、元祖、集合的基本操作列表创建l1=[] l1=list() l1=list(['你好'，6])增l1.append('hu') l1.insert(2,'Hu') l1.extend()#迭代增加删l1.pop() del l1[-1] l1.remove('Hu') l1.clear()改l1[0:]='hello'元祖创建tu=[] tu=tuple() tu=tuple((1,2))字典创建dic={} dic=dict(((1,2),(3,4),(5,6))) dic=dict(one=1,two=2,three=3) dic=dic({'one':1,'two':2,'three':3})增改dic['name']=2#有则改，无则加 di...

python的数据库对象【代码】【图】

安装mysql和sqlServe的python驱动:　　安装pymysql:python3 -m pip install pymysql，查看安装后的版本python3 -m pip show pymysql. 　　安装pymssql:python3 -m pip install pymssql，查看安装后的版本python3 -m pip show pymssql. 　　由于缺少—mssql,参考解决办法http://blog.csdn.net/HHTNAN/article/details/77931782,我们用第二种解决办法.whl的下载地址为https://www.lfd.uci.edu/~gohlke/pythonlibs/#pymssql,装命令为p...

Python数据结构【图】

列表Python中列表是可变的，这是它区别于字符串和元组的最重要的特点，一句话概括即：列表可以修改，而字符串和元组不能。以下是 Python 中列表的方法：下面示例演示了列表的大部分方法：>>> a = [66.25, 333, 333, 1, 1234.5]>>> print(a.count(333), a.count(66.25), a.count(‘x‘))2 1 0>>> a.insert(2, -1)>>> a.append(333)>>> a[66.25, 333, -1, 333, 1, 1234.5, 333]>>> a.index(333)1>>> a.remove(333)>>> a[66.25, -1...

【python】字符串、16进制等数据处理

最近做一个socket server，需要接收组播报文，并进行分析处理。其中涉及的一个问题是，待发送的报文是字符串形式，类似“hello world”。从wireshark截取的报文看，都是16进制数据，以为必须转为该种类型才能发送，需要转换为16进制字符串，类似“0x\a00x\c30x\b4”等。但后来发现，直接发送数据也是ok的，应该是数据发送时自己会进行转码。不了解的时候，网上查了下，发现大家推荐用到的模块是binascii，查看help几个方法如下：FU...

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

Web 数据抓取技术具有非常巨大的应用需求及价值，用 Python 在网页上收集数据，不仅抓取数据的操作简单，而且其数据分析功能也十分强大。通过 Python 的时lib 组件中的 urlparse 函数，可轻松解析指定网址的内容，在接收返回的 ParseResult 对象后，即可通过其属性取出网址中各项有用信息。 Python 还可进一步用 requests 函数抓取网页源代码，再通过相关语句或正则表达式搜索得到指定的数据。如果要抓取的数据比较复杂， ...

python笔记一数据类型基础

Python3中有六个标准的数据类型：Number(数字)String（字符串）List（列表）Tuple（元祖）Sets（集合）Dictionary（字典）Number(数字)Python3 支持 int、float、complex（复数）。在Python 3里，只有一种整数类型 int，表示为长整型，没有 python2 中的 Long。bool分为:True 、FalseString（字符串）python中的字符串用单引号（‘）或双引号（"）括起来，同时使用饭斜杠(\)转义特殊字符。650) this.width=650;" src="/e/u261/the...

python连接mysql获取数据字符串获取变量【代码】

python脚本中的变量经常会变动，所以考虑写到mysql里面如何获取mysql里面数据作为参数，参考如下脚本： #!/usr/bin/python # -*- coding: utf-8 -*- import MySQLdb # 打开数据库连接 db = MySQLdb.connect("3.12.5.1", "root", "root", "test", charset=‘utf8‘) # 使用cursor()方法获取操作游标 cursor = db.cursor() # 使用execute方法执行sql语句 cursor.execute("select media_source_dir from app_configs a where a.ip_ad...

python学习笔记（四）-数据类型【代码】

0. 在 Python 中的数据类型详解http://www.cnblogs.com/scios/p/8026576.html1. 为什么布尔类型(bool)的 True 和 False 分别用 1 和 0 来代替吗？计算机只认识二进制数，所以所有的编程语言最终都会转换成简单的二进制序列给CPU按照一定的规则解析。由于二进制只有两个数：0 和 1，因此用 0 和 1 来表示False和True再适合不过了，因为不用浪费资源在转换的过程上！2. 使用int()将小数转换为整数，结果是向上取整还是向下取整呢？小...

python接口自动化9-ddt数据驱动【代码】【图】

前言ddt：数据驱动，说的简单一点，就是多组测试数据，比如点点点的时候登录输入正常、异常的数据进行登录。实际项目中，自动化测试用得很少，但也有人用excel来维护测试数据一、ddt1、安装：pip install ddt　（我这里已经安装过了）C:\Users\Administrator>pip install ddt Requirement already satisfied: ddt in d:\path_python\lib\site-packages (1.2.1)2、先看下我们以前正常登录禅道的传参。登录需要账号与密码，现在只有一...

Python——pandas数据处理（python programming）【图】

原文：https://www.cnblogs.com/caiyishuai/p/10685128.html

用Python的pandas框架操作Excel文件中的数据教程【代码】

引言本文的目的，是向您展示如何使用pandas 来执行一些常见的Excel任务。有些例子比较琐碎，但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要。作为额外的福利，我将会进行一些模糊字符串匹配，以此来展示一些小花样，以及展示pandas是如何利用完整的Python模块系统去做一些在Python中是简单，但在Excel中却很复杂的事情的。有道理吧？让我们开始吧。为某行添加求和项我要介绍的第一项任务是把某几列相加...

6Python全栈之路系列之元组数据类型【代码】

Python全栈之路系列之元组数据类型元组(tuple)和列表的为唯一区别就是列表可以更改，元组不可以更改，其他功能与列表一样创建元组的两种方法第一种ages = (11, 22, 33, 44, 55)第二种ages = tuple((11, 22, 33, 44, 55))如果元祖内只有一个元素，那么需要加上一个逗号，否则就变成字符串了。In [1]: t = (1) In [2]: t Out[2]: 1 In [3]: type(t) Out[3]: int In [4]: t = (1,) In [5]: t Out[5]: (1,) In [6]: type(t) Out[6]: tu...

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

有时候在我们设计利用requests抓取网页数据的时候，会发现所获得的结果可能与浏览器显示给我们的不一样：比如说有的信息我们通过浏览器可以显示，但一旦用requests却得不到想要的结果。这种现象是因为我们通过requests获得的都是HTML源文档，而浏览器中见到的页面数据都是经过JavaScript处理的，而这些处理的数据可能是通过Ajax加载、本身包含于HTML中或是经过JavaScript自动生成。由Web发展趋势来看，越来越多的网页都通过Ajax加载...

python | 爬虫笔记（六）- Ajax数据爬取

request得到和浏览器数据不同数据加载是异步加载方式，原始页面不包含数据，加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。因此遇到这种情况，用requests模拟ajax请求6.1 Ajax 1- 介绍Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。是利用 JavaScript 在...

使用PYTHON列表生成式过滤数据【图】

python的列表生成式是一个很有用生成列表(List)的表达式。其中一个应用是作为列表的过滤器使用例如从一个列表中过滤掉奇数使用下面的语句就可以 [item for item in [1,2,3,4,5,6,7] if item % 2 == 0]反过来，去掉偶数也是同样的道理[item for item in [1,2,3,4,5,6,7] if item % 2 ！= 0]650) this.width=650;" title="dayone_questiontwo.png" src="/upload/getfiles/default/2022/11/12/20221112024043110.jpg" />本文出自 “...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python爬取招聘网站数据并做数据可视化

Python爬取招聘网站数据并做数据可视化

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python爬取招聘网站数据并做数据可视化】教程文章相关的互联网学习教程文章

PYTHON数据类型归纳与总结(1st)【代码】

python的数据库对象【代码】【图】

Python数据结构【图】

【python】字符串、16进制等数据处理

吴裕雄--天生自然python学习笔记：WEB数据抓取与分析【代码】【图】

python笔记一数据类型基础

python连接mysql获取数据字符串获取变量【代码】

python学习笔记（四）-数据类型【代码】

python接口自动化9-ddt数据驱动【代码】【图】

Python——pandas数据处理（python programming）【图】

用Python的pandas框架操作Excel文件中的数据教程【代码】

6Python全栈之路系列之元组数据类型【代码】

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

python | 爬虫笔记（六）- Ajax数据爬取

使用PYTHON列表生成式过滤数据【图】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程