【python – 如何在切割其DataFrame后更新pandas MultiIndex的级别?】教程文章相关的互联网学习教程文章

python – 将DataFrame拆分为DataFrame【代码】

我有一个DataFrame,其中不同的行可以为一列提供相同的值.举个例子:import pandas as pd df = pd.DataFrame( { "Name" : ["Alice", "Bob", "John", "Mark", "Emma" , "Mary"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } )City Name 0 Seattle Alice 1 Seattle Bob 2 Portland John 3 Seattle Mark 4 Seattle Emma 5 Portland Mary这里,“City”...

python – Pandas DataFrame.groupby()到具有多列值的字典【代码】

type(Table) pandas.core.frame.DataFrameTable ======= ======= ======= Column1 Column2 Column3 0 23 1 1 5 2 1 2 3 1 19 5 2 56 1 2 22 2 3 2 4 3 14 5 4 59 1 5 44 1 5 1 2 5 87 3对于任何有熊猫的人,我如何使用.groupby()方法构建一个多值字典? 我想输出类似于这种格式:{0: [(...

基于python的大数据分析实战学习笔记-pandas之DataFrame

接着上篇我们继续进行pandas中的DataFrame,话不多说,直接撸代码,里面有注释#dataframe的操作不外乎 增删改查from pandas import Seriesfrom pandas import DataFramedf=DataFrame({age:Series([18,20,30]),name:Series([x1,x2,x3])})print(df)访问列:变量名[列名]访问行:变量名[n:m] 访问n行到m-1行访问块(行和列):变量名.iloc[n1:n2, m1:m2] 访问n1到n2-1行,m1到m2-1列的数据访问指定的位置:变量名.at[行索引,列名]#访问...

python – 使用多个条件屏蔽DataFrame【代码】

我知道可以使用例如数据帧屏蔽数据帧中的某些行.(1) mask = df['A']=='a'其中df是手头有一个名为“A”的列的数据框.调用df [mask]会产生我新的“蒙面”DataFrame. 当然也可以使用多个标准(2) mask = (df['A']=='a') | (df['A']=='b')然而,当需要满足几个标准时,最后一步可能会有点繁琐.(3) mask = (df['A']=='a') | (df['A']=='b') | (df['A']=='c') | (df['A']=='d') | ...现在,假设我在数组中有我的过滤条件(4) filter = ['a', '...

python – pandas DataFrame中每一行的操作【代码】

我想迭代pandas DataFrame中的每一行,并对每行中的元素做一些事情. 现在我有for row in df.iterrows(): if row['col'] > 1.5:doSomething但它告诉我’元组索引必须是整数,而不是str’.如何在特定行中访问我想要的列?解决方法:iterrows收益率(指数,系列)对.因此,使用:for index, row in df.iterrows(): if row['col'] > 1.5:doSomething但请注意,a DataFrame is a primarily column-based data structure,等等如果你可以围绕列构建...

python – 计算DataFrame Pandas中’times’行之间的差异【代码】

我的DataFrame在表单中:TimeWeek TimeSat TimeHoli 0 6:40:00 8:00:00 8:00:00 1 6:45:00 8:05:00 8:05:00 2 6:50:00 8:09:00 8:10:00 3 6:55:00 8:11:00 8:14:00 4 6:58:00 8:13:00 8:17:00 5 7:40:00 8:15:00 8:21:00我需要在TimeWeek,TimeSat和TimeHoli中找到每一行之间的时差,输出必须是TimeWeekDiff TimeSatDiff TimeHoliDiff 00:05:00 00:05:00 ...

python – 比较两个pandas dataframe列中的常见字符串【代码】

我有一个pandas数据框如下:coname1 coname2 Apple [Microsoft, Apple, Google] Yahoo [American Express, Jet Blue] Gap Inc [American Eagle, Walmart, Gap Inc]我想创建一个新列,标记coname1中的字符串是否包含在conames中.因此,从上面的示例中,数据帧现在将是:coname1 coname2 isin Apple [Microsoft, Apple, Google] True Yahoo ...

python – 使用fuzzywuzzy在dataframe中创建新列【代码】

我在pandas中有一个数据帧,我在python中使用fuzzywuzzy包来匹配数据帧中的第一列和第二列. 我已经定义了一个函数来创建具有第一列,第二列和部分比率得分的输出.但它没有用. 能否请你帮忙import csv import sys import os import numpy as np import pandas as pd from fuzzywuzzy import fuzz from fuzzywuzzy import processdef match(driver):driver["score"]=driver.apply(lambda row: fuzz.partial_ratio(row driver[driver.co...

python – 使用唯一的正整数填充DataFrame【代码】

我有一个看起来像这样的DataFramecol1 col2 col3 col4 col5 0 0 1 0 1 11 0 1 0 0 1我想为每个0条目分配一个大于1的唯一正整数. 所以我想要一个看起来像这样的DataFramecol1 col2 col3 col4 col5 0 2 1 3 1 11 4 1 5 6 1整数不一定是有序的序列,只是积极和独特.解决方法:np.arange(…).reshape(df.shape)生成一个数据帧,其中包含从2开始的连续整数. df.where(...

python – 根据pandas 列中的多个值从DataFrame中选择行【代码】

参见英文答案 > Select rows from a DataFrame based on values in a column in pandas 14个这不是一个重复的问题,但类似于07001在上一个链接的答案中,如果我有多个标准,它只基于一个标准. 我想在列中选择许多行,而不仅仅是基于特定值的行.为了论证,考虑来自世界银行的DataFrameimport pandas.io.wb as wb import pandas as pd import numpy as np df2= wb.get_indicators()我选择certian值的方...

python – 根据特定列或列中是否存在空值,从DataFrame中选择行【代码】

我有一个导入的xls文件作为pandas数据帧,有两列包含坐标,我将用于将数据框与其他具有地理位置数据的数据框合并. df.info()显示8859条记录,坐标列有’8835非null float64’记录. 我想用所有列记录来观察24行(我假设为空)以查看其他列(街道地址镇)之一是否不能用于手动添加这24条记录的坐标. IE浏览器.返回df.[‘Easting’]中列的数据帧,其中isnull或NaN 我改编了下面给出的方法here;df.loc[df['Easting'] == NaN]但是回到一个空数据...

来自pandas dataframe python的barh图表中行的不同颜色【代码】

我有以下pandas数据帧:a bbob 23 25john 13 21paul 20 19david 17 14michael 14 24neil 22 11 df.plot(kind='barh')我使用了熊猫情节功能.我想制作一个带有不同颜色的所有行(名称)的条形图有没有办法做到这一点? 我需要所有人都有不同颜色的酒吧.解决方法:似乎Pandas仅支持使用colormap属性,该属性将相同的地图应用于图表中的每一行,例如:df.plot(kind='barh', colormap='RdBu')出于您的目的,您需...

python – 将GraphFrames ShortestPath Map转换为PySpark中的DataFrame行【代码】

我试图找到最有效的方法从GraphFrames函数shortestPaths获取Map输出,并将每个顶点的距离映射平铺为新DataFrame中的各个行.通过将距离列拉入字典然后从那里转换为pandas数据帧然后转换回Spark数据帧,我已经能够非常笨拙地做到这一点,但我知道必须有更好的方法.from graphframes import *v = sqlContext.createDataFrame([("a", "Alice", 34),("b", "Bob", 36),("c", "Charlie", 30), ], ["id", "name", "age"])# Create an Edge Dat...

python – 搜索比get_loc更快,以在DataFrame索引中找到标签位置?【代码】

我需要在Pandas索引中找到标签的整数位置.我知道我可以使用get_loc方法,但后来我发现了searchsorted.只是想知道我是否应该使用后者来提高速度,因为我需要搜索数以千计的标签.解决方法:这取决于你的用例.使用@ ayhan的例子. 使用get_loc,在第一次查找时创建哈希表会有很大的前期成本.In [22]: idx = pd.Index(['R{0:07d}'.format(i) for i in range(10**7)]) In [23]: to_search = np.random.choice(idx, 10**5, replace=False) In ...

python – 如何将多个列初始化为现有的pandas DataFrame【代码】

如何在现有pandas DataFrame对象中的单个实例中初始化多个列?我可以在一个实例上初始化单列,这样:df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}, dtype='int') df['c'] = 0但我做不到这样的事情:df[['c','d']] = 0 or df[['c']['d']] = 0有没有办法实现这个目标?解决方法:我更喜欢这个解决方案df = df.assign(**{'c': 0, 'd': 0})

INDEX - 相关标签