【python – 扩展由pandas中的多个列分组的平均值】教程文章相关的互联网学习教程文章

python-将元组的无序列表转换为pandas DataFrame【代码】

我正在使用库usaddress来解析我拥有的一组文件中的地址.我希望我的最终输出是一个数据框,其中列名代表地址的一部分(例如街道,城市,州),行代表我提取的每个地址.例如: 假设我有一个地址列表:addr = ['123 Pennsylvania Ave NW Washington DC 20008', '652 Polk St San Francisco, CA 94102', '3711 Travis St #800 Houston, TX 77002']然后使用usaddress提取它们info = [usaddress.parse(loc) for loc in addr]“ info”是元组列表...

python-在另一个DataFrame中为每一行复制并连接Pandas Dataframe【代码】

我想为不同数据框中的每一行创建并堆叠一个数据框. For Example 我尝试通过遍历一个行并复制和堆叠另一个行来做到这一点,但这是一个非常缓慢的过程.有本地的熊猫方式可以做到这一点吗?解决方法:输入:a = pd.DataFrame({'first':[1,2,3],'second':['one','two','three']}) b = pd.DataFrame({'alice':['yes','no'],'bob':['no','yes']})创建一个虚拟密钥并合并以创建笛卡尔乘积a.assign(key=1).merge(b.assign(key=1), on='key')....

python-根据0级索引对多索引Pandas DataFrame的1级索引进行自定义排序【代码】

我有一个multindex DataFrame,df:arrays = [['bar', 'bar', 'baz', 'baz', 'baz', 'baz', 'foo', 'foo'],['one', 'two', 'one', 'two', 'three', 'four', 'one', 'two']]df = pd.DataFrame(np.ones([8, 4]), index=arrays)看起来像:0 1 2 3 bar one 1.0 1.0 1.0 1.0two 1.0 1.0 1.0 1.0 baz one 1.0 1.0 1.0 1.0two 1.0 1.0 1.0 1.0three 1.0 1.0 1.0 1.0four 1.0 1.0 1.0 1.0 foo on...

python pandas如何在dataframe列中选择前后10行【代码】

我有这个数据框,我想在特定列上选择10行.我已经达到了这一点,但是我想知道如何在lambda python表达式中使其更加优雅,因为我需要在循环中运行1万次.import pandas as pddf = pd.DataFrame(data=np.random.rand(90),index=pd.date_range('2015-01-01','2015-03-31'),columns=['A'])我已经将此作为正在进行的解决方案: 之前和之后的10个观察结果:df.loc['2015-01-17':].head(11)[1:11].transpose() ! before df.loc[:'2015-01-17'...

Python Pandas-使用特定顺序重新索引数据框【代码】

我有一个熊猫数据框,我想使用特定顺序对索引重新排序.from random import randint import pandas as pd days = ["Tuesday", "Thursday", "Monday", "Wednesday"] df = pd.DataFrame({"Value": [randint(0, 9) for i in range(len(days)*2)]}, index=[day for day in days for i in range(2)]) myorder = ["Monday", "Tuesday", "Wednesday", "Thursday"]具体订单如清单myorder所通知解决方法:使用CategoricalIndex sort_index:df....

python-如何将自定义函数列表传递给pandas.Dataframe.aggregate【代码】

我正在尝试使用不同的自定义函数(尤其是来自scipy.stats)聚合pd.Dataframe.我可以将其与单个函数一起使用,在这种情况下为trim_mean:import pandas as pd import numpy as np from scipy.stats import trim_meandf = pd.DataFrame(np.random.randn(100, 3), columns=['A', 'B', 'C'], index=pd.date_range('1/1/2000', periods=100))# this works as expected df.agg([np.sum, np.mean])# now with a different function, works al...

python-从MultiIndex Pandas数据框中删除一列【代码】

我一直在尝试了解熊猫的多索引方法.我正在尝试删除“ std”子列,但徒劳无功. 如何才能做到这一点?attribute attribute2 test1 std test2 d count type r1 10 rx 0.559 (0.0) 0.559 (0.0) 0.568 (0.0) sth1 0.653 (0.004) 0.6...

python-使用pandas datareader获取股票信息【代码】

我正在使用pandas datareader提取给定日期范围内的库存信息.例如:import pandas_datareader.data as web import datetime as dtstart = dt.datetime(2018,3,26) end = dt.datetime(2018,3,29)web.DataReader('IBM','morningstar', start, end).reset_index()这将为IBM返回以下数据框:这包含我要查找的信息,但我想自动遍历多个股票行情指示器(而不是手动更改股票行情指示器).理想情况下,我可以通过所需的股票行情清单循环此代码.解...

python-pandas .loc返回空的数据框【代码】

我有熊猫数据框,如下所示.chainage(km) 0 0.001 0.002 0.003 0.004当我使用.loc搜索里程数时,它会返回一些里程数的空数据框.print data.loc[data['chainage(km)'] == float(0.004)] -空数据框print data.loc[data['chainage(km)'] == float(0.001)] -返回值 任何帮助将非常感激.解决方法:由于浮点数不正确而出现问题. Is floating point math broken?中对此进行了说明. 在这种情况下,请改用np.isclose.df[np.isclose(d...

python-如何使用matplotlib / seaborn和pandas数据框创建带有共享x轴的上下条形图【代码】

我想创建一个与此类似的图形.是否可以使用matplotlib / seaborn.如果是这样,我可以使用哪些资源来学习如何设置matplotlib / seaborn图的样式,以及如何使两个图这样排列.解决方法:使用公共x轴并将其中一个数据集转换为包含负值.y = ['{} to {} years'.format(i, i+4) for i in range(0, 90, 4)] d_1 = np.random.randint(0, 150, 23) d_2 = -1 * d_1然后绘制:fig, ax = plt.subplots() ax.bar(y, d_1) ax.bar(y, d_2)# Formatting ...

python-通过索引pandas DataFrame提取单个值【代码】

我正在从熊猫数据框中调用一行row = df.iloc[[i]] customer.customer_id = row['billing_city']然后,当我调用`customer.billing_city时,会得到类似的输出4 Brooklyn Name: billing_address_city, dtype: object我只想拥有Booklyn用于创建对象等目的解决方法:使用df.iat访问单个项目.df.iat[i, df.columns.get_loc('billing_city')]使用iat的原因与使用iloc的原因相同.如果您的索引是整数,则没有关系,可以改用df.at. 还有loc项目...

python-根据总str长度选择字符串的中间部分进入新的列pandas【代码】

如何根据动态变化的长度提取字符串的年份部分, 示例数据Name C:/Users/Documents/Ownership_1_Year_2015.csv C:/Users/Documents/Non_Ownersip_1_Year_2016.csv C:/Users/Documents/Ownership_1_Year_2016.csv我玩的公式是df['Name_Stripped'] = df['Name'].str[:-4]显然删除了.csv,我尝试了len(str)-8将提供动态起始值,但也就不足为奇了,因为我对要计算长度的所有建议都感到困惑.我确实认为for循环可以使用每次被调用的x的长度,但...

python-更新值等于相同df和另一个df之和的pandas数据框【代码】

我有两个看起来像这样的datframedf1posting_period name sales profit1 client1 50.00 10.001 client2 100.00 20.002 client1 150.00 30.00df2 (this df does not have the 'profit' column as in df1) posting_period name sales 1 client1 10.00 2 client1 20.00 我想...

python-对pandas组执行按索引排序的更快方法【代码】

我有一个名称为(person_name),颜色为(shirt_color)的数据框每个人在特定的日子都穿某种颜色的衬衫(天数可以是任意的) 例如输入:name color ---------------- John White John White John Blue John Blue John White Tom Blue Tom Blue Tom Green Tom Black Jerry Black Jerry Blue Jerry Black我需要找到每个人穿的最好的彩色衬衫,根据best_color_order例如结果:name color --------...

Python Pandas-检查值是否在前n行中【代码】

我们有以下代码:import pandas as pd table = {"Col 1":{"0":"Row 1","1":"Row 2","2":"Row 3","3":"Row 4","4":"Row 5","5":"Row 6","6":"Row 7","7":"Row 8","8":"Row 9","9":"Row 10"},"Col 2":{"0":0,"1":1,"2":0,"3":0,"4":1,"5":0,"6":0,"7":1,"8":1,"9":1}} tabledf = pd.DataFrame(table) tabledf["Col 3"] = "??"哪个返回:Col 1 Col 2 Col 3 0 Row 1 0 ?? 1 Row 2 1 ?? 2 Row 3 0 ?? 3 ...

分组 - 相关标签