【python – Pandas – 基于Boollean DataFrame替换DataFrame中的值】教程文章相关的互联网学习教程文章

python – 使用List中的值将字典转换为Pandas DataFrame【代码】

我有一个字典,城市名称作为键,对应每个城市有一个日期列表.例如:{ 'A':['2017-01-02','2017-01-03'], 'B':['2017-02-02','2017-02-03','2017-02-04','2017-02-05'], 'C':['2016-02-02'] }我想将其转换为包含2列的以下数据帧.City_Name Date A 2017-01-02 A 2017-01-03 B 2017-02-02 B 2017-02-03 B 2017-02-04 B 2017-02-05 C 2016-02-02解决方法:或者我们可以使...

python – 将Dask DataFrame存储为pickle【代码】

我有一个Dask DataFrame构造如下:import dask.dataframe as dddf = dd.read_csv('matrix.txt', header=None) type(df) //dask.dataframe.core.DataFrame有没有办法将这个DataFrame保存为pickle? 例如,df.to_pickle('matrix.pkl')解决方法:通过快速检查dask中可用的方法,这是不可能的.它仍然可以作为另一个答案,但我担心由于dask数据帧的最终分布式特性,它可能不是直截了当的. 无论如何,如果我是你,我会通过另一个解决方案并使用镶...

python – pandas使用loc插入行的Dataframe如果第一个参数不是列表,则会引发错误错误?【代码】

这是问题的最小例子:import pandas as pd example = pd.DataFrame(index=pd.np.arange(2) , columns=['A', 'B', 'C']).astype('object') example.loc[0] = [['a'], 'b', [1,2,3]] example.loc[1] = ['a', 'b', [1,2,3]]我得到一个ValueError:用序列设置一个数组元素 以下是spyder中DataFrame的样子: 我不明白为什么第一个元素必须“嵌套”.为什么第二行不起作用?我究竟做错了什么?请查看可以直接插入’b’的第二列. 我投票给了...

python – 根据条件替换Pandas Dataframe中的值【代码】

我有一个带有一些数值的数据帧列.我希望根据给定条件将这些值替换为1和0.条件是如果该值高于列的平均值,则将数值更改为1,否则将其设置为0. 这是我现在的代码:import numpy as np import matplotlib.pyplot as plt import pandas as pddataset = pd.read_csv('data.csv') dataset = dataset.dropna(axis=0, how='any')X = dataset.drop(['myCol'], axis=1) y = dataset.iloc[:, 4:5].valuesmean_y = np.mean(dataset.myCol)目标是数...

python – 用基于索引的其他DataFrame替换Pandas DataFrame中的行【代码】

我有2个dataFramesdf1B C A 0 300 6 1 400 7 2 500 8 3 600 9df2B C A 2 433 99 3 555 99这就是我构建它们的方式:df1 = pd.DataFrame({'A': [0, 1, 2, 3],'B': [300, 400, 500, 600], 'C': [6, 7, 8, 9]}) df1.set_index('A', inplace=True) df2 = pd.DataFrame({'A': [2, 3],'B': [433, 555],'C': [99, 99]}) df2.set_index('A', inplace=True)我想根据索引将df1中的所有行替换为df2中的行,结果应...

python – Pandas Dataframe.describe():哪种标准偏差?【代码】

使用python的Pandas库,Dataframe.describe() function打印数据集的标准偏差.但是,文档页面未指定此标准偏差是“uncorrected” standard deviation还是“更正”标准偏差. 有人能告诉我它返回哪一个?解决方法:这是校正的样本标准偏差.你可以通过一个简单的系列说明自己,并应用公式:In [11]: s = pd.Series([1, 2])In [12]: s.std() Out[12]: 0.70710678118654757In [13]: from math import sqrt....: sqrt(0.5) Out[13]: 0.707106...

Python:Pandas – 根据列值分隔Dataframe【代码】

假设我有一个如下所示的数据帧:in: mydata = [{'subid' : 'B14-111', 'age': 75, 'fdg':1.78},{'subid' : 'B14-112', 'age': 22, 'fdg':1.56},] df = pd.DataFrame(mydata)out:age fdg subid0 75 1.78 B14-1111 22 1.56 B14-112我想根据“age”列将数据帧分成两个不同的数据帧,如下所示:out:df1: age fdg subid0 75 1.78 B14-111df2:age fdg subid1 22 1.56 B14-112我怎样才能做到这一点?解决方...

Python – 将Zip代码作为字符串加载到DataFrame中?【代码】

我正在使用Pandas加载包含邮政编码(例如32771)的Excel电子表格.邮政编码在电子表格中存储为5位数字符串.使用命令将它们拉入DataFrame时…xls = pd.ExcelFile("5-Digit-Zip-Codes.xlsx") dfz = xls.parse('Zip Codes')他们被转换成数字.所以’00501’变成了501. 所以我的问题是,我该怎么做: 一个.加载DataFrame并保存存储在Excel文件中的邮政编码的字符串类型? 湾将DataFrame中的数字转换为五位数字符串,例如“501”变成“00501”...

python – 当我随机播放DataFrame的副本时,为什么原始DataFrame也会被洗牌?【代码】

参见英文答案 > In pandas, can I deeply copy a DataFrame including its index and column? 2个这是输入,df1= pd.DataFrame(np.random.randn(10,3), columns= list("ABC") )A B C0 0.468682 -0.136178 0.4189001 -0.362995 -0.111931 0.4335372 -1.194483 -0.844683 -1.0227193 0.531893 -1.032088 -1.6830094 2.113807 -0.450628 0.0049715 0.141548 -0.621090 -0.1...

python – Pandas DataFrame能否有效地计算PMI(Pointwise Mutual Information)?【代码】

我环顾四周,并且令人惊讶的是没有找到用于计算Pointwise Mutual Information(Wiki PMI)的框架或现有代码的简单方法,尽管像Scikit-learn这样的库提供了整体互信息的度量(通过直方图).这是在Python和熊猫的背景下! 我的问题: 我有一个DataFrame,每行有一系列[x,y]示例,并希望根据公式(或更简单的公式)计算一系列PMI值: PMI(x,y)= log(p(x,y)/ p(x)* p(y)) 到目前为止,我的方法是:def pmi_func(df, x, y):df['freq_x'] = df.group...

python – 在Pandas DataFrame中转换列值的最有效方法【代码】

我有一个pd.DataFrame,看起来像:我想在值上创建一个截止值,将它们推入二进制数字,在这种情况下,我的截止值为0.85.我希望结果数据框看起来像:我写的脚本很容易理解,但对于大型数据集来说效率很低.我敢肯定Pandas可以通过某种方式来处理这些类型的转换. 有没有人知道使用阈值将一列浮点数转换为整数列的有效方法? 我非常天真地做这样的事情:DF_test = pd.DataFrame(np.array([list("abcde"),list("pqrst"),[0.12,0.23,0.93,0.86,...

python – 为pandas dataframe创建新列的条件要求【代码】

我有一个如下数据框:Name IDNum BossNum John 1 0 Matt 2 1 Mike 3 2 Jack 4 1如何创建一个名为BossName的附加列,如下所示: 预期产出:Name IDNum BossNum BossName John 1 0 John/none (I don't care about boss being ided) Matt 2 1 John Mike 3 2 Matt Jack 4 1 John我...

python – 将字典中的列表添加到DataFrame作为新列【代码】

假设我有以下pandas DataFrame:df = pd.DataFrame({'x': [0, 1, 2], 'y': [3, 4, 5], 'z': [6, 7, 8]})x y z0 0 3 61 1 4 72 2 5 8以下字典:d = {'a': [10, 10, 10], 'b': [100, 100, 100]}将字典添加到DataFrame以获取以下内容的最佳方法是什么:x y z a b0 0 3 6 10 1001 1 4 7 10 1002 2 5 8 10 100这是我到目前为止所提出的,但我觉得必须有更好的方法:df_bigge...

Python – 使dataframe的列与列表元素一致【代码】

从我读过的内容中,可以很容易地从DataFrame添加和删除列,但我想知道是否已经有一种方法可以实现我想要实现的目标,以避免重新发明轮子. 假设我有DataFrame x:a b c 0 1 5 8 1 2 6 9 2 3 7 10我想验证列名是否仅对应于列表l中包含的元素.例如,l中的元素比x中的列少,我希望删除缺少的列. 例如,如果l = [“a”,“b”],则x将变为:a c 0 1 8 1 2 9 2 3 10另一方面,如果l中的元素多于x中的列,我想创建新的,相应...

python – list / dict / list中的Pandas DataFrame【代码】

我有这种形式的一些数据:a = [{'table': 'a', 'field':['apple', 'pear']}, {'table': 'b', 'field':['grape', 'berry']}]我想创建一个如下所示的数据框:field table 0 apple a 1 pear a 2 grape b 3 berry b当我尝试这个:pd.DataFrame.from_records(a)我明白了:field table 0 [apple, pear] a 1 [grape, berry] b我正在使用循环来重构我的原始数据,但我认为必须有一个更简单,更简单的方法...

替换 - 相关标签