首页 / PYTHON / python – pandas.DataFrame列中值组合的可能性

python – pandas.DataFrame列中值组合的可能性

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – pandas.DataFrame列中值组合的可能性，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2881字，纯文字阅读大概需要5分钟。

内容图文

我的DataFrame表示每列中的属性,如果适用,则表示每行中的是/否值：

d_att = { 'attribute1': ['yes', 'yes', 'no'],
          'attribute2': ['no', 'yes', 'no'],
          'attribute3': ['no', 'no', 'yes'] }

df_att = pd.DataFrame(data=d_att)
df_att

    attribute1  attribute2  attribute3
0   yes         no          no
1   yes         yes         no
2   no          no          yes

现在我需要计算每个属性组合的可能性,例如如果attribute1为yes,则attribute2也为yes的可能性为0.5.

我的目标是像这样的DataFrame：

             attribute1  attribute2  attribute3
attribute1   1.0         0.5         0.0
attribute2   1.0         1.0         0.0
attribute3   0.0         0.0         1.0

到目前为止,我开始用整数(1/0)替换yes / no-values：

df_att_int = df_att.replace({'no': 0, 'yes': 1})
df_att_int 

    attribute1  attribute2  attribute3
0   1           0           0
1   1           1           0
2   0           0           1

然后我定义了一个遍历每一列的方法,过滤当前列中值为1的行的DataFrame,计算过滤后的DataFrame中每列的总和,并将总和除以过滤行数(= sum)当前列：

def combination_likelihood(df):
    df_dict = {}

    for column in df.columns:
        col_sum = df[df[column]==1].sum()
        divisor = col_sum[column]
        df_dict[column] = col_sum.apply(lambda x: x/divisor)

    return pd.DataFrame(data=df_dict).T

在我的df_att_int-DataFrame上应用该方法可以提供预期的结果：

df_att_comb_like = combination_likelihood(df_att_int)
df_att_comb_like

             attribute1  attribute2  attribute3
attribute1   1.0         0.5         0.0
attribute2   1.0         1.0         0.0
attribute3   0.0         0.0         1.0

但是,如果属性/列名不是按字母顺序排列,则行将按标签排序,并且有洞察力的图所需的特征模式将丢失,例如导致以下结构：

             attribute2  attribute3  attribute1
attribute1   0.5         0.0         1.0
attribute2   1.0         0.0         1.0
attribute3   0.0         1.0         0.0

最终,我想将结果绘制成热图：

import seaborn as sns
sns.heatmap(df_att_comb_like)

是否有更简单,更优雅的方法来构造可能性数据框并为列和行标签保留相同的顺序？任何帮助将不胜感激！

解决方法:

一衬垫

虽然我把更好的东西放在一起

df_att.eq('yes').astype(int)     .pipe(lambda d: d.T.dot(d))     .pipe(lambda d: d.div(d.max(1), 0))

            attribute1  attribute2  attribute3
attribute1         1.0         0.5         0.0
attribute2         1.0         1.0         0.0
attribute3         0.0         0.0         1.0

更长

使数据帧成为整数掩码

d = df_att.eq('yes').astype(int)
d

   attribute1  attribute2  attribute3
0           1           0           0
1           1           1           0
2           0           0           1

点产品本身

d2 = d.T.dot(d)
d2

            attribute1  attribute2  attribute3
attribute1           2           1           0
attribute2           1           1           0
attribute3           0           0           1

将每行除以该行的最大值

d2.div(d2.max(axis=1), axis=0)

            attribute1  attribute2  attribute3
attribute1         1.0         0.5         0.0
attribute2         1.0         1.0         0.0
attribute3         0.0         0.0         1.0

内容总结

以上是互联网集市为您收集整理的python – pandas.DataFrame列中值组合的可能性全部内容，希望文章能够帮你解决python – pandas.DataFrame列中值组合的可能性所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/788966.html

来源：【匿名】

【上一篇】匹配python字典的键中是否存在子字符串的最佳方法【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – pandas.DataFrame列中值组合的可能性】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

https://stackoverflow.com/questions/14808945/check-if-variable-is-dataframe Use the built-in isinstance() function.1import pandas as pd 23def f(var): 4if isinstance(var, pd.DataFrame): 5print"do stuff" 判断变量是否是DataFrame 或者 Series' ref='nofollow'>判断变量是否是DataFrame 或者 Series原文：https://www.cnblogs.com/focus-z/p/10134539.html

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

Python的文件是一个重要的对象，使用open()函数来打开文件，创建文件对象，进行文件的读写操作。当数据用于交换信息时，通常需要把数据保存为有格式的文本数据，可以保存为有特定的行分隔符和列分隔符的数据，这可以使用pandas模块中的函数来读写；也可以保存为json结构的数据，这可以使用json模块中的函数来实现；对于大型的数据交互，通常使用数据库。一，Python的open函数open()函数用于打开文件，创建文件对象：open(name, mod...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python 修改dataframe的列名【代码】

1. 修改全部列名 df.columnsbase_data_model.columns = [u‘有效率‘,u‘提交率‘,u‘参与度‘,u‘回放占比‘,u‘主好评率‘,u‘辅好评率‘,u‘是否付费‘] 2. 修改指定列名 df.renamedf.rename(columns={‘a‘:‘A‘}) #把原来的 a 命名为 A 原文：https://www.cnblogs.com/skyEva/p/9672777.html

python—dataframe用法【代码】

#行处理#df.iloc[1] 行索引号——获取行#df.iloc[0,1] 行列索引号——获取一个元素#df.iloc[[0,1]] 双括号默认都是行索引号——获取n行#df.iloc[0:2,1:3] 行列索引号——获取区域元素#df.loc["A"] 行名称——获取行#df.loc["A","c1"] 行列名称——获取一个元素#df.loc[["A","B"]] 双括号默认都是行名称号——获取n行#df.loc["A":"B","c1":"c2"] 行列名称——获取区域元素#列处理#df["c2"] 列名称——获取列#df[[...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

Python中从SQL型数据库读写dataframe型数据【代码】

Python的pandas包对表格化的数据处理能力很强，而SQL数据库的数据就是以表格的形式储存，因此经常将sql数据库里的数据直接读取为dataframe，分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数据。read_sql参见pandas.read_sql的文档，read_sql主要有如下几个参数：sql:SQL命令字符串con：连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立index_c...

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

Python教程栏目介绍如何嵌套JSON推荐（免费）：Python教程调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）说明：这里results是一个大的字典，issues是results其中的一个键，issues的值为一个嵌套JSON对象字典的列表，后面会看到JSON嵌套结构。问题...

pandas技巧之详解DataFrame中的apply与applymap方法【图】

相关学习推荐：python视频教程今天是pandas数据处理专题的第5篇文章，我们来聊聊pandas的一些高级运算。在上一篇文章当中，我们介绍了panads的一些计算方法，比如两个dataframe的四则运算，以及dataframe填充Null的方法。今天这篇文章我们来聊聊dataframe中的广播机制，以及apply函数的使用方法。 dataframe广播广播机制我们其实并不陌生，我们在之前介绍numpy的专题文章当中曾经介绍过广播。当我们对两个尺寸不一致的数组进行运...

pandas技巧之 DataFrame中的排序与汇总方法【图】

相关学习推荐：python教程今天是pandas数据处理专题的第六篇文章，我们来聊聊DataFrame的排序与汇总运算。在上一篇文章当中我们主要介绍了DataFrame当中的apply方法，如何在一个DataFrame对每一行或者是每一列进行广播运算，使得我们可以在很短的时间内处理整份数据。今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。排序排序是我们一个非常基本的需求，在pandas当中将这个需求进一步细分，...

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第三篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第四篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

使用pandas进行数据处理之 DataFrame篇【图】

相关学习推荐：python教程这是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF...

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

本篇文章给大家带来的内容是关于pandas.DataFrame中pivot()如何实现行转列的问题（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。示例：有如下表需要进行行转列：代码如下：# -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings import filterwarnings # 由于create table if not exists总会抛出warning，因此使用filterwarnings消除 filterwarnings(ignore, category = MySQLdb.W...

python读取文本中数据并转化为DataFrame的实例_python【图】

这篇文章给大家分享的是python读取文本中数据并转化为DataFrame的实例，具有一定的参考价值，希望可以帮助到有需要的人在技术问答中看到一个这样的问题，感觉相对比较常见，就单开一篇文章写下来。从纯文本格式文件 “file_in”中读取数据，格式如下：需要输出成“file_out”，格式如下：数据的原格式是“类别：内容”，以空行“\n”为分条目，转换后变成一个条目一行，按照类别顺序依次写出内容。建议读取后，使用pandas，把数据建...

首页 / PYTHON / python – pandas.DataFrame列中值组合的可能性

python – pandas.DataFrame列中值组合的可能性

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – pandas.DataFrame列中值组合的可能性】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python 修改dataframe的列名【代码】

python—dataframe用法【代码】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

Python中从SQL型数据库读写dataframe型数据【代码】

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

pandas技巧之详解DataFrame中的apply与applymap方法【图】

pandas技巧之 DataFrame中的排序与汇总方法【图】

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

使用pandas进行数据处理之 DataFrame篇【图】

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

python读取文本中数据并转化为DataFrame的实例_python【图】

PYTHON - 相关标签

组合 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程