【Python Dataframe 分组排序和 Modin】教程文章相关的互联网学习教程文章

python-像以前的版本一样,将pandas 0.13.0“ print dataframe”更改为print dataframe【代码】

在新版的熊猫0.13.0中,数据框df使用以下格式打印在一长串数字中:df要么print df而不是像以前那样的概述,现在只能使用df.info()是否可以将默认的“ df”或“ print df”命令更改为显示:In [12]: df.info() <class 'pandas.core.frame.DataFrame'> DatetimeIndex: 4319 entries, 2010-02-18 00:00:00 to 2010-03-13 23:15:00 Data columns (total 2 columns): QInt 4319 non-null values QHea 4319 non-null values dtypes...

python-Pandas Dataframe-基于两列但大于0的行找到最小值【代码】

我有一个包含3列的数据框:x,y,时间.有几千行. 我想做的是检索具有最少时间的行,但我希望最小值不应该为0. 例如x y time 240 1 28.5 240 2 19.3 240 240 0 240 19 9.7到目前为止,我已经尝试过以下操作:df.loc[df['time'] > 0].min() # this gives me a series and I want a row # x 225.000000 # y 0.000000 # time 1.066606df['time'].drop_duplicates().nsmallest(1) # 225 0.0我也尝...

python-如何使用自定义顺序按两列对DataFrame进行排序?【代码】

我有一个pandas DataFrame,我需要按特定顺序在一个列中排序,而在另一列中升序.两列都有重复的值.看起来或多或少是这样的:import pandas as pddf = pd.DataFrame() df[0] = pd.Series( [ 'a', 'aa', 'c' ] * 2 ) df[1] = pd.Series( [ 1, 2 ] * 3 ) df[2] = pd.Series( range(6) ) print( df )0 1 2 0 a 1 0 1 aa 2 1 2 c 1 2 3 a 2 3 4 aa 1 4 5 c 2 5现在,假设我需要按第0列和第1列进行排序,但无需按字母...

python-Pandas DataFrame获取索引匹配特定条件的行【代码】

我有一个Pandas数据框,从中需要索引匹配特定条件的所有行.数据框具有MultiIndex,并且我需要第一个索引TimeStamp在特定范围内的行. MultiIndex的级别1是一系列DateTime对象.以下代码行用于检查月份是否等于5:compare[compare.index.get_level_values(0).month == 5]但是当我修改代码以检查值在某个数组中的行时compare[compare.index.get_level_values(0).month in [5, 6, 7]]我得到错误ValueError: The truth value of an array w...

python-基于Pandas中的堆栈列延长DataFrame【代码】

我正在寻找实现以下目的的功能.最好在示例中显示.考虑:pd.DataFrame([ [1, 2, 3 ], [4, 5, np.nan ]], columns=['x', 'y1', 'y2'])看起来像:x y1 y2 0 1 2 3 1 4 5 NaN我想折叠y1和y2列,在必要时加长DataFame,以便输出为:x y 0 1 2 1 1 3 2 4 5 也就是说,对于x和y1或x和y2之间的每个组合,需要一行.我正在寻找一个功能相对有效的函数,因为我有多个y和许多行.解决方法:这是基于NumPy的,您在寻找性能时-...

python-从DataFrame中按行提取列名称到Series【代码】

我想将列表中的列名提取到按每行值过滤的SeriesIn [1]: import pandas as pd In [2]: df =pd.DataFrame({'colA':[1,0,1], 'colB':[0,0,1], 'colC':[1,0,0]}) In [3]: print(df)colA colB colC 0 1 0 1 1 0 0 0 2 1 1 0生成的系列应如下所示:0 [colA, colC] 1 [] 2 [colA, colB] dtype: object这是我想出的折磨解决方案:In [4]: df2 = df.TIn [5]: l = [df2[df2[i...

python-用字典值覆盖pandas DataFrame列,其中字典键与非索引列匹配?【代码】

我有一个DataFrame df和一个dict d,像这样:>>> dfa b 0 5 10 1 6 11 2 7 12 3 8 13 4 9 14 >>> d = {6: 22, 8: 26}对于字典中的每个(键,val),我想查找a列与键匹配的行,并用值覆盖其b列.例如,在这种特定情况下,第1行中b的值将更改为22,而在第3行中b的值将更改为26. 我应该怎么做?解决方法:假设可以将新值传播到与a列匹配的所有行(如果a列中有重复项),则:for a_val, b_val in d.iteritems():df['b'][df.a==a_val] = b...

python-根据正则表达式字典填充Pandas DataFrame列【代码】

我有一个如下数据框:GE GO 1 AD Weiss 2 KI Ruby 3 OH Port 4 ER Rose 5 KI Rose 6 JJ Weiss 7 OH 7UP 8 AD 7UP 9 OP Coke 10 JJ Stout并且我正在尝试根据GO列的值添加一列.我当时正在考虑使用字典,但是在我的真实情况下,我需要使用正则表达式来识别部分匹配项.例如:Dic={'Weiss|\wuby|Sto\w+':'Beer', 'Port|Rose':'Wine','\dUP|Coke':'Soda'}这会给GE GO OUT 1 A...

Python:Spark:当key不是行中的第一个键时,Dataframe.subtract返回所有内容【代码】

我试图在Spark 1.6.1中使用SQLContext.subtract()来基于另一个数据帧中的列从数据帧中删除行.我们来看一个例子:from pyspark.sql import Rowdf1 = sqlContext.createDataFrame([Row(name='Alice', age=2),Row(name='Bob', age=1), ]).alias('df1')df2 = sqlContext.createDataFrame([Row(name='Bob'), ])df1_with_df2 = df1.join(df2, 'name').select('df1.*') df1_without_df2 = df1.subtract(df1_with_df2)由于我希望df1中所有不...

python-熊猫:选择两个日期之间的DataFrame行(日期时间索引)【代码】

我有一个带有DatetimeIndex和一栏MSE损失的Pandas DataFrame索引的格式如下:DatetimeIndex(['2015-07-16 07:14:41', '2015-07-16 07:14:48','2015-07-16 07:14:54', '2015-07-16 07:15:01','2015-07-16 07:15:07', '2015-07-16 07:15:14',...]它包括几天. 我想选择特定日期的所有行(所有时间),而无需特别知道实际的时间间隔.例如:在2015-07-16 07:00:00和2015-07-16 23:00:00之间 我尝试了这里概述的方法:here 但是df [date_fro...

python-MultiIndex pandas DataFrame的嵌套字典(3级)【代码】

我想做一个等效的三层嵌套字典 Nested dictionary to multiindex dataframe where dictionary keys are column labels解决方法:以三级字典为例In [1]: import pandas as pdIn [2]: dictionary = {'A': {'a': {1: [2,3,4,5,6],...: 2: [2,3,4,5,6]},...: 'b': {1: [2,3,4,5,6],...: 2: [2,3,4,5,6]}},...: 'B': {'a': {1: [2,3,4,5,6],...:...

python-重新格式化pandas DataFrame【代码】

我有一个pandas.DataFrame,其中包含以下数据:country branch Name salary mobile no emailidx a aa 250000 Null Nullx b bb 350000 8976646410 xx@xx.comy c cc 450000 8777945411 yy@yy.comy d dd 589630 Null Null根据某些条件,我过...

在Python中使用熊猫在两个DataFrame之间进行值匹配【代码】

嗨,我有两个像下面的DataFramesDF1Alpha | Numeric | Specialand | 1 | @or | 2 | #lol ok | 4 | &DF2 with single columnContent boy or girl school @ morn pyc LoL ok student Chandra我想搜索DF1列中的任何人是否在DF2内容列中的任何关键字,并且输出应该在新的DF中`df11 = (df1.unstack().reset_index(level=2,drop=True).rename_axis(('col_order','col_name')).dropn...

在Python Pandas DataFrame中插入行【代码】

(我是python的新手,对我犯的任何错误深表歉意,希望你能理解我) 我搜索了一种在Python中将行插入到Pandas DataFrame中的方法,并且发现了这一点: add one row in a pandas.DataFrame 我已经使用了fred在该主题的可接受答案中提供的代码,但是该代码覆盖了我的行:我的代码(在某些情况下,为每列插入一个值为“ -1”的行):df.loc[i+1] = [-1 for n in range(len(df.columns))]如何使代码插入一行而不覆盖它?例如,如果我有一个50行的D...

python – 使用DataFrame.plot显示堆积条形图中的总计和百分比【代码】

我的数据框如下所示:Airport ATA Cost Destination Handling Custom Total Cost 0 PRG 599222 11095 20174 630491 1 LXU 364715 11598 11595 387908 2 AMS 401382 23562 16680 441623 3 PRG 599222 11095 20174 630491 使用下面的代码,它给出了一个堆积条形图:df = df.iloc[:, 0:4] df.plot(...

分组 - 相关标签