首页 / PYTHON / 使用字典计算python数据帧中的字频率

使用字典计算python数据帧中的字频率

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用字典计算python数据帧中的字频率，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3441字，纯文字阅读大概需要5分钟。

内容图文

我有一个由文本作业描述和3个空列组成的数据框

   index   job_description                 level_1      level_2        level_3
    0      this job requires masters in..    0             0              0
    1      bachelor degree needed for..      0             0              0
    2      ms is preferred or phd..          0             0              0

我正在尝试浏览每个作业描述字符串并计算作业描述中提到的每个学位级别的频率.示例输出应如下所示.

   index   job_description                 level_1      level_2        level_3
    0      this job requires masters in..    0             1              0
    1      bachelor degree needed for..      1             0              0
    2      ms is preferred or phd..          0             1              1

我创建了字典以进行比较,如下所示,但我对如何在数据框“作业描述”列的字符串中查找这些单词并根据单词是否存在填充数据框列有点无能为力.

my_dict_1 = dict.fromkeys(['bachelors', 'bachelor', 'ba','science
                           degree','bs','engineering degree'], 1)
my_dict_2 = dict.fromkeys(['masters', 'ms', 'master'], 1)
my_dict_3 = dict.fromkeys(['phd','p.h.d'], 1)

我非常感谢对此的支持..

解决方法:

这样的事怎么样？

由于您的三个词典中的每一个都对应于您要创建的不同列,因此我们可以创建另一个字典映射,其中即将成为列的名称作为键,并且在每个特定级别搜索的字符串作为值(实际上,您甚至不需要用于存储my_dict_< x>项目的字典 – 你可以使用一套 – 但这不是一个大问题：

>>> lookup = {'level_1': my_dict_1, 'level_2': my_dict_2, 'level_3': my_dict_3}
>>> lookup
{'level_1': {'bachelors': 1, 'bachelor': 1, 'ba': 1, 'science degree': 1, 'bs': 1, 'engineering degree': 1}, 'level_2': {'masters': 1, 'ms': 1, 'master': 1}, 'level_3': {'phd': 1, 'p.h.d': 1}}

然后,浏览刚刚创建的字典中的每个建议列,并分配一个新列,用于创建所需的输出,检查每个my_dict_< x>中指定的每个级别.对象是否至少有一个属于每行的作业描述…

>>> for level, values in lookup.items():
...     df[level] = df['job_description'].apply(lambda x: 1 if any(v in x for v in values) else 0)
... 
>>> df
              job_description  level_1  level_2  level_3
0     masters degree required        0        1        0
1  bachelor's degree required        1        0        0
2    bachelor degree required        1        0        0
3                phd required        0        0        1

另一种解决方案,使用scikit-learn的CountVectorizer类,它计算字符串中出现的标记(基本上是单词)的频率：

>>> from sklearn.feature_extraction.text import CountVectorizer

指定特定词汇 – 忘记所有其他不是“学术证书”关键词的词：

>>> vec = CountVectorizer(vocabulary={value for level, values in lookup.items() for value in values})
>>> vec.vocabulary
{'master', 'p.h.d', 'ba', 'ms', 'engineering degree', 'masters', 'phd', 'bachelor', 'bachelors', 'bs', 'science degree'}

使变换器适合文本可迭代,df [‘job_description’]：

>>> result = vec.fit_transform(df['job_description'])

深入了解结果：

>>> pd.DataFrame(result.toarray(), columns=vec.get_feature_names())
   ba  bachelor  bachelors  bs  engineering degree  master  masters  ms  p.h.d  phd  science degree
0   0         0          0   0                   0       0        1   0      0    0               0
1   0         1          0   0                   0       0        0   0      0    0               0
2   0         1          0   0                   0       0        0   0      0    0               0
3   0         0          0   0                   0       0        0   0      0    1               0

如果你想回到你的level_< x>,那么最后一种方法可能需要更多的工作.列结构,但我想我只是将它作为一种思考编码这些数据点的不同方式.

内容总结

以上是互联网集市为您收集整理的使用字典计算python数据帧中的字频率全部内容，希望文章能够帮你解决使用字典计算python数据帧中的字频率所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/728055.html

来源：【匿名】

【上一篇】python – 使用列表推导交换行和列【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用字典计算python数据帧中的字频率】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

这是之前做的一个小项目。这几天刚好整理了一些相关资料，顺便就在这里做一个梳理啦~ 简单来说这个项目实现了，登录人人网并爬取用户数据。并对用户数据进行分析挖掘，终于效果例如以下：1、存储人人网用户数据（户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页）。2、信息可视化，绘制户主好友间的关系网络图；3、数据挖掘，通过分析户主好友关注的公共主页，向户主推荐公共主页。项目分为三个部分，各自是人...

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

从入门到自闭之Python--MySQL数据库的单表操作【代码】

单表查询：select * from 表 where 条件 group by 分组 having 过滤 order by 排序 limit n;语法：select distinct 字段1，字段2... from 表名 where 条件 group by 组名 having 筛选 order by 排序 limit 限制条数找到表:from拿着where指定的约束条件，去文件/表中取出一条条记录将取出的一条条记录进行分组group by，如果没有group by，则整体作为一组执行select（去重）：select * from 表名;将分组的结果进行having过滤将结果按...

Python的Django框架中的数据库配置指南【代码】

记住这些理念之后，让我们来开始 Django 数据库层的探索。首先，我们需要做些初始配置；我们需要告诉Django使用什么数据库以及如何连接数据库。我们假定你已经完成了数据库服务器的安装和激活，并且已经在其中创建了数据库（例如，用 CREATE DATABASE 语句）。如果你使用SQLite，不需要这步安装，因为SQLite使用文件系统上的独立文件来存储数据。象前面章节提到的 TEMPLATE_DIRS 一样，数据库配置也是在Django的配置文件里，缺省...

python连接mysql数据库

1.系统必须安装MySQL-python软件，否则python没有连接的模块(在Linux系统)yum install MySQL-python2.安装mysql数据库yum install mysql-server mysql[root@AY140528120357495c4bZ ~]# /etc/init.d/mysqld restartStopping mysqld: [ OK ]Starting mysqld: [ OK ][root@AY140528120357495c4bZ ~]#3.在mysql中创建数据库和表[root@AY1405...

4-Python数据类型之元组-字符串【代码】

目录1 元组概念1.1 元祖的特点1.2 元组的定义1.3 元组的访问1.4 元组的查询2 命名元组3 字符串3.1 字符串的基本操作3.1.1 字符串的访问3.1.2 字符串的拼接3.2 字符串分割3.3 字符串大小写3.4 字符串排版3.5 字符串修改3.6 字符串查找3.7 字符串判断3.8 字符串格式化3.8.1 C语言格式化3.8.2 format格式化3.8.3 对齐3.8.9 小数点与进制4 切片4.1 切片赋值1 元组概念????????元组（类型为 tuple）和列表十分相似,但是元组和字符串一样...

python 一维和二位数据的高斯模糊滤波【代码】【图】

高斯模糊一阶核函数:高斯函数二阶核函数：def calc(self,x,y=0):if self.level==1:return 1/((2*math.pi)**0.5*self.sigema)*math.exp(-(x**2/2/(self.sigema**2)))elif self.level==2:return 1/(2*math.pi*self.sigema*self.sigema)*math.exp(-(x**2+y**2)/2/self.sigema/self.sigema) σ为标准差定义一个模糊半径，通过上述公式获取到需要的核函数如半径r=1 ，σ=2一阶时为x=[-1,0,1],生成核为[0.176033，0.199471，0.176033]/d...

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

财经数据接口包tushare的使用（一）Tushare是一款开源免费的金融数据接口包，可以用于获取股票的历史数据、年度季度报表数据、实时分笔数据、历史分笔数据，本文对tushare的用法，已经存在的一些问题做一些介绍。一：安装tushare为避免由于依赖包缺失导致安装失败，请先安装anaconda,百度网盘地址：链接：http://pan.baidu.com/s/1qYDQUGs 密码：6wq8 安装直接一直下一步即可安装完成之后，anaconda会自动配置环境变量，直接就可...

python常用的数据类型【代码】

int_num = 7 float_num = 7.7 string = "python" a, b, c = 7, 7.7, "python"print(int_num, type(int_num)) print(float_num, type(float_num)) print(string, type(string)) print(a, b, c) print("a=%.6f"%a) print(len(c))运行结果：7 <class‘int‘> 7.7 <class‘float‘> python <class‘str‘> 7 7.7 python a=7.000000 原文：https://www.cnblogs.com/jumpkin1122/p/11503119.html

python基础，小数据池内存地址，is与==区别【代码】

内存地址 id() 总结：数字类型，字符串类型，元组，变量不同值相同的内存地址是相同的。列表，字典，反之。int类型#共同内存地址 a = 2345435436457656756 b = 2345435436457656756 print(id(a)) #id() 内存地址 print(id(b))结果：16521307949521652130794952float类型#共同内存地址 a = 234.5435436457656756 b = 234.5435436457656756 print(id(a)) print(id(b))结果：19538493853681953849385368str类型#共同内存地址 s...

python3生成随机数据，并存入sqlite3

#!/usr/bin/python #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/6/15 22:46 # @Author : Kwan # @File : insert_db.py # @Software: PyCharmimport sqlite3 import random import datetime# conn = sqlite3.connect('local.db') # # c = conn.cursor() # # c.execute("insert into system_cfg values(?,?,?)",(2,'test2',1)) # # conn.commit() # # conn.close()def make_date(): # def make_card_n...

python数据库操作【代码】

#!/usr/src/python# -*- coding:utf-8 -*-import pymysqlimport socket,structdef sql_exe(v_sql): conn = pymysql.Connect(host=‘192.168.110.133‘,port=3306,user="admin",password="mysql123",database="hostmgr",charset=‘utf8‘) cursor = conn.cursor() v = cursor.execute(v_sql) result = cursor.fetchall() # result = cursor.fetchone() # result = cursor.fetchmany(2) print(result) curso...

Python 复数数据类型详解（complex）[学习 Python 必备基础知识][看此一篇就够了]【代码】【图】

您的“关注”和“点赞”，是信任，是认可，是支持，是动力......如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。目录1 复数数据类型概述2 从复数中提取实部和虚部3 相关函数 complex()3.1 complex() 函数概述3.2 注意事项4 文章其他地址4.1 微信公众号：码农阿杰4.2 CSDN 博客5 参考资料5.1 Python 3.8.2 documentation1 复数数据类型概述复数数据类型，简称复数类型。在 Python 中用comple...

python的基本数据类型【代码】

‘‘‘ int str bool list 存储大量的数据，用[]来表示 tuple 元组，不可以发生改变，用()来表示，和C++的元组是一样的 dict 字典，保存键值对，一样可以保持大量的数据，和C++的map一样 set 集合，内部数据不可以重复 ‘‘‘ 字符串的任何操作都不会改变它本身，所以需要提供另一个字符串来承装#字符串的截取片段 s1 = input("输入字符串：\n") a = input("输入开始截取的位置：\n") b = input("输入结束截取的位置：\n") a = int...

Python数据驱动(ddt)【代码】

import unittest import ddt #第三方库data=[[1,2],[3,4],[5,6]]@ddt.ddtclass MyTestCase(unittest.TestCase):#只有一个参数时@ddt.data(1,2,3)def test_01(self,a):print(a)@ddt.data(*data)#表示可参数，若传参是data,则后面的取值a=[[1,2],[3,4],[5,6]] @ddt.unpackdef test_02(self,a,b):print(a,‘----‘,b)@ddt.data([1,2],[3,4])#和上面的相似，这里未使用变量 @ddt.unpackdef test_03(self,a,b):print(a, ‘----‘...

首页 / PYTHON / 使用字典计算python数据帧中的字频率

使用字典计算python数据帧中的字频率

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用字典计算python数据帧中的字频率】教程文章相关的互联网学习教程文章

python实现人人网用户数据爬取及简单分析【图】

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

从入门到自闭之Python--MySQL数据库的单表操作【代码】

Python的Django框架中的数据库配置指南【代码】

python连接mysql数据库

4-Python数据类型之元组-字符串【代码】

python 一维和二位数据的高斯模糊滤波【代码】【图】

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

python常用的数据类型【代码】

python基础，小数据池内存地址，is与==区别【代码】

python3生成随机数据，并存入sqlite3

python数据库操作【代码】

Python 复数数据类型详解（complex）[学习 Python 必备基础知识][看此一篇就够了]【代码】【图】

python的基本数据类型【代码】

Python数据驱动(ddt)【代码】

PYTHON - 相关标签

数据 - 相关标签

字典 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程