【Python Dataframe 分组排序和 Modin】教程文章相关的互联网学习教程文章

python – PySpark.将Dataframe传递给pandas_udf并返回一个系列【代码】

我正在使用PySpark的新pandas_udf装饰器,我试图让它将多列作为输入并返回一个系列作为输入,但是,我得到一个TypeError:无效的参数 示例代码@pandas_udf(df.schema, PandasUDFType.SCALAR) def fun_function(df_in):df_in.loc[df_in['a'] < 0] = 0.0return (df_in['a'] - df_in['b']) / df_in['c']解决方法:A SCALAR udf期望pandas系列作为输入而不是数据帧.对于您的情况,没有必要使用udf.剪切后列a,b,c的直接计算应该起作用:impor...

python – 在DataFrame的开头(最左端)插入一列【代码】

我有30列的数据框,并希望添加一个新列开始.解决方法:DataFrame.insertdf = pd.DataFrame({'A': ['x'] * 3, 'B': ['x'] * 3}) dfA B 0 x x 1 x x 2 x xseq = ['a', 'b', 'c']# This works in-place. df.insert(0, 'C', seq) dfC A B 0 a x x 1 b x x 2 c x xpd.concatdf = pd.concat([pd.Series(seq, index=df.index, name='C'), df], axis=1) dfC A B 0 a x x 1 b x x 2 c x xDataFrame.reindex assi...

python – 计算DataFrame每行中Series中项的出现次数【代码】

我有一个看起来像这样的pandas.DataFrame.COL1 COL2 COL3 C1 None None C1 C2 None C1 C1 None C1 C2 C3对于此数据帧中的每一行,我想计算每个C1,C2,C3的出现次数,并将此信息作为列附加到此数据帧.例如,第一行具有1个C1,0个C2和0个C3.最终的数据框应如下所示COL1 COL2 COL3 C1 C2 C3 C1 None None 1 0 0 C1 C2 None 1 1 0 C1 C1 ...

python – Pandas – 在DataFrame中的任何位置查找值索引【代码】

我是Python&的新手大熊猫. 我想在我的pandas数据帧中找到某个值的索引(比如说security_id),因为这是列开始的位置.(列数上方的行数不明,行数不相关,左侧有许多空“列”.) 据我所知,isin方法只返回值是否存在的布尔值,而不是索引. 如何找到该值的索引?解决方法:假设您的DataFrame如下所示:0 1 2 3 4 0 a er tfr sdf 34 1 rt tyh fgd thy rer 2 1 2...

python – 获取pandas DataFrame的名称【代码】

如何获取DataFrame的名称并将其作为字符串打印? 例: boston(var名称分配给csv文件)boston = read_csv('boston.csv')print ('The winner is team A based on the %s table.) % boston解决方法:您可以使用以下命令对数据框命名,然后在任意位置调用名称:import pandas as pd df = pd.DataFrame( data=np.ones([4,4]) ) df.name = 'Ones'print df.name >>> Ones希望有所帮助.

python – 高效地将最后’n’行CSV读入DataFrame【代码】

一些方法可以做到这一点: >阅读整个CSV,然后使用df.tail>以某种方式反转文件(对于大文件最好的方法是什么?)然后使用nrows参数来读取>以某种方式查找CSV中的行数,然后使用skiprows并读取所需的行数.>也许做块读取丢弃初始块(虽然不知道这将如何工作) 可以用更简单的方式完成吗?如果不是,应该优先考虑这三者中的哪一个?为什么? 可能相关: > Efficiently finding the last line in a text file> Reading parts of ~13000 row CS...

python – Networkx Multigraph from_pandas_dataframe【代码】

更新:所写的问题与Networkx版本相关< 2.0. from_pandas_dataframe方法has been dropped.要在Networkx> = 2.0中完成相同的任务,请参阅对已接受答案的更新. 尝试使用networkx的from_pandas_dataframe从pandas DataFrame创建一个MultiGraph()实例.我在下面的例子中做错了什么?In [1]: import pandas as pdimport networkx as nxdf = pd.DataFrame([['geneA', 'geneB', 0.05, 'method1'],['geneA', 'geneC', 0.45, 'method1'],['gene...

python – dataframe.describe()压制科学记数法【代码】

参见英文答案 > Suppressing scientific notation in pandas? 3个如何抑制dataframe.describe()的科学记数法输出:contrib_df["AMNT"].describe()count 1.979680e+05 mean 5.915134e+02 std 1.379618e+04 min -1.750000e+05 25% 4.000000e+01 50% 1.000000e+02 75% 2.500000e+02 max 3.000000e+06 Name: AMNT, dtype: float64我的数据类型为float64:cont...

python – 在DataFrame中组合重复的列【代码】

如果我的数据框具有包含相同名称的列,是否有办法将具有相同名称的列与某种功能(即总和)组合在一起? 例如:In [186]:df["NY-WEB01"].head() Out[186]:NY-WEB01 NY-WEB01 DateTime 2012-10-18 16:00:00 5.6 2.8 2012-10-18 17:00:00 18.6 12.0 2012-10-18 18:00:00 18.4 12.0 2012-10-18 19:00:00 18.2 12.0 2012-10-18 20:00:00 19.2 12.0我如何通过对列名相同的每一行进行求和来折叠NY-WEB01列(有...

python – 如何替换Pandas.DataFrame上的整个列【代码】

我想用另一个DataFrame中的另一列替换Pandas DataFrame上的整个列,一个例子将阐明我在寻找什么import pandas as pd dic = {'A': [1, 4, 1, 4], 'B': [9, 2, 5, 3], 'C': [0, 0, 5, 3]} df = pd.DataFrame(dic)df是'A' 'B' 'C'1 9 04 2 01 5 54 3 3现在我有另一个名为df1的数据框,其中包含“E”列df1['E'] = [ 4, 4, 4, 0]我想用df1的列“E”替换df的列“B”'A' 'E' 'C'1 4 04 4 01 4 54 0 3我试图...

python – 将Pandas DataFrame写入Google Cloud Storage或BigQuery【代码】

您好,感谢您的时间和考虑.我正在Google Cloud Platform / Datalab中开发一个Jupyter笔记本.我创建了一个Pandas DataFrame,并希望将此DataFrame写入Google云端存储(GCS)和/或BigQuery.我在GCS中有一个存储桶,并通过以下代码创建了以下对象:import gcp import gcp.storage as storage project = gcp.Context.default().project_id bucket_name = 'steve-temp' bucket_path = bucket_name bucket = storage.Bucke...

python – 在谷歌colab中读取csv到dataframe【代码】

我正在尝试读取我在本机上存储的csv文件. (仅供参考,它是来自Kaggle的巨大数据,即here.) 从this问答后,我了解到您可以使用此代码导入数据,这对我很有用.from google.colab import files uploaded = files.upload()丢失的地方是如何从这里将其转换为数据帧.上面答案中列出的sample google notebook page没有谈到它. 我试图使用from_dict命令转换上传到dataframe的字典,但无法使其工作.关于将dict转换为数据帧here有一些讨论,但解决方...

python – 将具有常量值的列添加到pandas dataframe【代码】

给定一个DataFrame:np.random.seed(0) df = pd.DataFrame(np.random.randn(3, 3), columns=list('ABC'), index=[1, 2, 3]) dfA B C 1 1.764052 0.400157 0.978738 2 2.240893 1.867558 -0.977278 3 0.950088 -0.151357 -0.103219添加包含常量值(例如0)的新列的最简单方法是什么?A B C new 1 1.764052 0.400157 0.978738 0 2 2.240893 1.867558 -0.977278 0 3 0.950088 -0.15...

python – 将列表或系列作为一行附加到pandas DataFrame?【代码】

所以我初始化了一个空的pandas DataFrame,我想在这个DataFrame中迭代地将列表(或Series)作为行附加.这样做的最佳方式是什么?解决方法:有时候在熊猫之外做所有附加操作会更容易,然后,只需一次创建DataFrame即可.>>> import pandas as pd >>> simple_list=[['a','b']] >>> simple_list.append(['e','f']) >>> df=pd.DataFrame(simple_list,columns=['col1','col2'])col1 col2 0 a b 1 e f

python – 如何提供现有DataFrame的可重现副本?【代码】

2018-09-18_reproducible_dataframe.ipynb 这似乎是一个显而易见的问题.然而,许多提出有关熊猫问题的用户都是新手,而且缺乏经验.提出问题的一个关键组成部分是How to create a Minimal, Complete, and Verifiable example,它解释了什么,但不是真正的问题. 例如,作为提问的人,我可能需要遵循:import pandas as pddf = pd.read_csv('flavors_of_cacao.csv')然后是一些其他代码,产生错误或不产生所需的结果 在Stack Overflow上提问时...

分组 - 相关标签