【Python:如何从pandas系列中获取字典中的值】教程文章相关的互联网学习教程文章

如何检查python pandas中列的dtype【代码】

我需要使用不同的函数来处理数字列和字符串列.我现在在做什么真是愚蠢:allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc:treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc:treat_str(agg[y]) 有没有更优雅的方式来做到这一点?例如.for y in agg.columns:if(dtype(agg[y]) == 'string'):treat_str...

python – 获取Pandas列的总数【代码】

目标 我有一个Pandas数据框,如下所示,有多个列,并希望获得总列MyColumn. 数据框 – df: 打印dfX MyColumn Y Z 0 A 84 13.0 69.0 1 B 76 77.0 127.0 2 C 28 69.0 16.0 3 D 28 28.0 31.0 4 E 19 20.0 ...

在Ipython notebook / Jupyter中,Pandas没有显示我试图绘制的图形【代码】

我试图在Ipython Notebook中使用pandas绘制一些数据,虽然它给了我对象,但它实际上并没有绘制图形本身.所以它看起来像这样:In [7]:pledge.Amount.plot()Out[7]:<matplotlib.axes.AxesSubplot at 0x9397c6c>之后图表应该遵循,但它根本不会出现.我已经导入了matplotlib,所以这不是问题所在.我需要导入任何其他模块吗?解决方法:请注意,不推荐使用–pylab并且已从新版本的IPython中删除了,现在可以运行在IPython Notebook中启用内联绘...

python – 将列表或系列作为一行附加到pandas DataFrame?【代码】

所以我初始化了一个空的pandas DataFrame,我想在这个DataFrame中迭代地将列表(或Series)作为行附加.这样做的最佳方式是什么?解决方法:有时候在熊猫之外做所有附加操作会更容易,然后,只需一次创建DataFrame即可.>>> import pandas as pd >>> simple_list=[['a','b']] >>> simple_list.append(['e','f']) >>> df=pd.DataFrame(simple_list,columns=['col1','col2'])col1 col2 0 a b 1 e f

python – 选择/排除pandas中的列集【代码】

参见英文答案 > Delete column from pandas DataFrame 14个我想根据列选择从现有数据框创建视图或数据框. 例如,我想从数据帧df1创建一个数据帧df2,它保存除了其中两个列之外的所有列.我尝试了以下操作,但它不起作用:import numpy as np import pandas as pd# Create a dataframe with columns A,B,C and D df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))# Try to create ...

python – pandas group by并分配一个组ID然后取消组合【代码】

我有一个大型数据集,格式如下:id, socialmedia 1, facebook 2, facebook 3, google 4, google 5, google 6, twitter 7, google 8, twitter 9, snapchat 10, twitter 11, facebook我想在那时进行分组并分配一个group_id列然后取消组合(展开)回到各个记录.id, socialmedia, groupId 1, facebook, 1 2, facebook, 1 3, google, 2 4, google, 2 5, google, 2 6, twitter, 3 7, google, 2 8, twitter, 3 9, snapchat, 4 10, twitter, 3...

python – 在pandas中合并两个数据帧【代码】

我正在使用以下代码合并两个csv(数据框):import pandas as pd a = pd.read_csv(file1,dtype={'student_id': str}) df = pd.read_csv(file2) c=pd.merge(a,df,on='test_id',how='left') c.to_csv('test1.csv', index=False)我有以下CSV文件 文件1:test_id, student_id 1, 01990 2, 02300 3, 05555文件2:test_id, result 1, pass 3, fail合并后test_id, student_id , result 1, 1990, pass 2, 2300, 3, 5555, fail如果您注意到stu...

python – 将组总数添加到Pandas中的数据框的最佳方法【代码】

我有一个简单的任务,我想知道是否有更好/更有效的方法.我有一个如下所示的数据框:Group Score Count 0 A 5 100 1 A 1 50 2 A 3 5 3 B 1 40 4 B 2 20 5 B 1 60我想添加一个包含组总计数值的列:Group Score Count TotalCount 0 A 5 100 155 1 A 1 50 155 2 A 3 5 155 3 ...

python – 在pandas中运行总和(没有循环)【代码】

我想在熊猫数据框架上构建一个运行总和.我有类似的东西:10/10/2012: 50, 0 10/11/2012: -10, 90 10/12/2012: 100, -5我想得到:10/10/2012: 50, 0 10/11/2012: 40, 90 10/12/2012: 140, 85因此,每个单元格应该是自身和所有先前单元格的总和,如何在不使用循环的情况下执行此操作.解决方法:正如@JonClements所提到的,您可以使用cumsum DataFrame方法执行此操作:from pandas import DataFrame df = DataFrame({0: {'10/10/2012...

python – 根据包含pandas中特定字符串的列名选择列【代码】

我使用以下方法创建了一个数据框:df = pd.DataFrame(np.random.rand(10, 3), columns=['alp1', 'alp2', 'bet1'])我想得到一个数据框,其中包含来自df的每个列,其名称中包含alp.这只是我的问题的简单版本,所以我的真实数据框将有更多的列.解决方法:替代方法:In [13]: df.loc[:, df.columns.str.startswith('alp')] Out[13]:alp1 alp2 0 0.357564 0.108907 1 0.341087 0.198098 2 0.416215 0.644166 3 0.814056 0.1210...

python – 在pandas中使用read_csv时精度丢失【代码】

我在文本文件中有以下格式的文件,我试图读入一个pandas数据帧.895|2015-4-23|19|10000|LA|0.4677978806|0.4773469340|0.4089938425|0.8224291972|0.8652525793|0.6829942860|0.5139162227|如您所见,输入文件中的浮点后有10个整数.df = pd.read_csv('mockup.txt',header=None,delimiter='|')当我尝试将其读入数据帧时,我没有得到最后4个整数df[5].head()0 0.467798 1 0.258165 2 0.860384 3 0.803388 4 0.249820 Nam...

python – 关于坏数据的Pandas dataframe read_csv【代码】

我想读一个非常大的csv(不能在excel中打开并且很容易编辑)但是在第100,000行的某个地方,有一行有一个额外的列导致程序崩溃.这行是错误的,所以我需要一种方法来忽略它是一个额外的列的事实.有大约50列,所以硬编码标题和使用名称或usecols是不可取的.我也可能在其他csv中遇到这个问题,并且想要一个通用的解决方案.遗憾的是,我在read_csv中找不到任何内容.代码就像这样简单:def loadCSV(filePath):dataframe = pd.read_csv(filePath,...

python – 模块’pandas’没有属性’rolling_mean’【代码】

我正在尝试构建一个用于异常检测的ARIMA.我需要找到时间序列图的移动平均线我试图使用pandas 0.23import pandas as pd import numpy as np from statsmodels.tsa.stattools import adfuller import matplotlib.pylab as plt from matplotlib.pylab import rcParams rcParams['figure.figsize'] = 15, 6dateparse = lambda dates: pd.datetime.strptime(dates, '%Y-%m') data = pd.read_csv('AirPassengers.csv', parse_dates=['Mon...

python – ValueError:值的长度与索引的长度不匹配Pandas DataFrame.unique()【代码】

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值.这是我想要得到的一个例子:A B----- 0| 1 1 1| 2 5 2| 1 5 3| 7 9 4| 7 9 5| 8 9Wanted Result Not Wanted ResultA B A B----- -----0| 1 1 0| 1 11| 2 5 1| 2 52| 7 9 2| 3| 8 3| 7 94|5| 8我真的不关心索引,但似乎是问题所在.到目前为止,我的代码非常简单,我尝试了两种方法,一种是使用新的dataFrame而另一...

python – pandas dataframe view vs copy,我怎么说?【代码】

有什么区别: pandas df.loc [:,(‘col_a’,’col_b’)] 和 df.loc [:,[ ‘为col_a’, ‘col_b’]] 下面的链接没有提到后者,虽然它有效.拉两个视图?首先是拉视图而第二个是拉副本吗?喜欢学习熊猫. http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy 谢谢解决方法:如果您的DataFrame有一个简单的列索引,那么没有区别.例如,In [8]: df = pd.DataFrame(np.arange(12).reshape(4,3), columns=...

字典 - 相关标签