【python – 如何在切割其DataFrame后更新pandas MultiIndex的级别?】教程文章相关的互联网学习教程文章

python – 如果特定列中的值不是pandas dataframe中的整数,则删除行【代码】

如果我有一个数据帧并且想要删除任何行,其中一列中的值不是整数,我该怎么做? 另一种方法是,如果值不在0-2的范围内,则删除行,但由于我不知道如何做其中任何一个,我希望有些可能. 这是我尝试过的但是它不能确定原因:df = df[(df['entrytype'] != 0) | (df['entrytype'] !=1) | (df['entrytype'] != 2)].all(1)解决方法:我建议有两种方法:In [212]:df = pd.DataFrame({'entrytype':[0,1,np.NaN, 'asdas',2]}) df Out[212]:entrytyp...

python – 类型错误:从特定列pandas dataframe中选择子集时,不可用类型’list’【代码】

我有一个大约有20列的数据框,我试图通过仅选择一些特定的列来获取数据帧的子集.我的代码行是:df3_query = df3[['Cont NUMBER'],['PL NUMBER'],['NAME'],['LOAN COUNT'],['SCORE MINIMUM'],['COUNT PERCENT']]我收到错误了TypeError: unhashable type: 'list'我可以知道为什么会出现此错误的原因吗?另外,我想只选择df3数据帧中的那些列.谁可以帮我这个事?解决方法:您需要在一个列表中编写列名而不是列表列表:df3_query = df3...

python – 用条件列绘制pandas DataFrame【代码】

我有这种pandas.DataFrame.得到“x”和“y”时,“a”,“b”是条件.df = pd.DataFrame([[10,20,0,.1], [10,20,1,.5], [100,200,0,.33], [100,200,1,.11]], columns=["a", "b", "x", "y"]) df我需要根据相同的条件绘制(x,y)列的折线图.预期结果图是:当然,此图像由以下代码手动提供:pd.DataFrame([[0,.1],[1,.5]]).plot(kind="line", x=0, y=1, style="-", legend=None, title="a: 10, b: 20") plt.xlabel("x") plt.ylabel("y") plt...

python – pandas DataFrame列中值的频率计数【代码】

请帮我找到解决方案:我有一个Pandas DataFrame,其中包含网站访问者和访问日期.现在我想知道,有多少人访问过一次,两次等等. 我从表开始:Visitor | Date ---------------------A | Jan-1stB | Jan-1stC | Jan-2ndD | Jan-2ndA | Jan-2nd我希望得到以下形式的结果:Frequency | No. of of visits | visitors -----------------------1 | 32 | 1解决方法:在Visitor列上使用va...

python – 反向DataFrame列,但保持索引【代码】

考虑以下In [214]: df = pd.DataFrame(index=range(4,8), data=[33,22,11,00])In [215]: df Out[215]: 0 4 33 5 22 6 11 7 0我想颠倒第一列的顺序,但保持索引的当前顺序,所以df看起来像4 0 5 11 6 22 7 33我似乎无法找到正确的reset_index,reindex等来实现这一目标.解决方法:适当地使用iloc和切片df.iloc[::-1]0 7 0 6 11 5 22 4 33为了保存索引 使用ilocdf.iloc[:] = df.iloc[::-1].values使用numpypd.DataFrame(d...

python – 在Pandas DataFrame的多个列上使用fillna方法失败【代码】

为什么这个操作会失败?例如:a = pd.DataFrame({'a': [1,2,np.nan, np.nan],'b': [5,np.nan,6, np.nan],'c': [5, 1, 5, 2]})a[['a', 'b']].fillna(0, inplace=True)并给了我这个警告:SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame但是,仍然像以前一样充满了NAs.但是,如果我分别在每个列上调用.fillna(),则没有问题.如何一次性在多列上填充NA值?解决方法:选项1a.loc[:, ['a', 'b...

python – 转换为Pandas Dataframe的True / False值【代码】

我有一个相当大的数据框,看起来有点像这样:| obj1 | obj2 | obj3 ||------------------------ 0 | attr1 | attr2 | attr1 | 1 | attr2 | attr3 | NaN | 2 | attr3 | attrN | NaN |我是熊猫的新人(ish),但我想不出办法让它看起来像这样:| obj1 | obj2 | obj3 |------------------------ attr1 | True | False | True | attr2 | True | False | False | attr3 | True | False | False |最狡猾/快速的方法是什么? 编辑 我...

python – Pandas DataFrame:如何在多个条件下选择行?【代码】

我正在尝试根据需要满足的条件列表选择DataFrame的行.这些条件存储在字典中,格式为{column:max-value}. 这是一个例子:dict = {‘name’:4.0,’sex’:0.0,’city’:2,’age’:3.0} 我需要选择所有DataFrame行,其中相应的属性小于或等于字典中的相应值. 我知道根据两个或多个条件选择行我可以写:rows = df[(df[column1] <= dict[column1]) & (df[column2] <= dict[column2])]我的问题是,如何以Pythonic方式选择与字典中存在的...

如何在Python中按日期对DataFrame进行排序?【代码】

我尝试使用df.sort_values(by =’date’)按日期对下面显示的数据框进行排序,但它不起作用.任何想法我怎么能这样做,以确保它正确排序?symbol date open close high low 0 GOOG 2007-01-03 232.77 233.56 238.09 230.32 1 GOOG 2007-01-05 241.01 243.35 243.51 238.82 2 GOOG 2007-01-04 234.27 241.39 241.73 233.94... 2692 GOOG 2017-11-30 1022.37 102...

python – 获取pandas dataframe列中值更改的索引【代码】

我正在努力扩大我的熊猫技能.我有一个像这样的pandas数据框:dfGroup 1 Group 2 Product ID 0 Products International X11 1 Products International X11 2 Products Domestic X11 3 Products Domestic X23 4 Services Professional X23 5 Services Professional X23 6 Services Analytics X25我正在尝试使用...

python – Pandas OneHotEncoder.fit(dataframe)返回ValueError:long()的无效文字,基数为10【代码】

我正在尝试将Pandas数据帧转换为NumPy数组以使用Sklearn创建模型.我会在这里简化问题.>>> mydf.head(10) IdVisita 445 latam 446 NaN 447 grados 448 grados 449 eventos 450 eventos 451 Reescribe-medios-clases...

python – Pandas DataFrame的重音字符在Excel中出现乱码【代码】

附:# -*- coding: utf-8 -*-在我的.ipynb顶部,Jupyter现在正确显示重音字符. 当我导出到csv(带.to_csv())包含重音字符的pandas数据框时:…在Excel中打开csv时,字符无法正确呈现.无论我是否设置encoding =’utf-8’都是这种情况. pandas / python是否可以在这里完成所有这些,这是一个Excel问题?或者可以在导出到csv之前完成某些事情? > Python:2.7.10>熊猫:0.17.1> Excel:Excel for Mac 2011解决方法:如果你想保留重音,请尝试...

python – Spark DataFrame mapPartitions【代码】

我需要在Spark DataFrame上进行分布式计算,在DataFrame的块上调用一些任意(不是SQL)逻辑.我做了:def some_func(df_chunk):pan_df = df_chunk.toPandas()#whatever logic heredf = sqlContext.read.parquet(...) result = df.mapPartitions(some_func)不幸的是,它导致:AttributeError: ‘itertools.chain’ object has no attribute ‘toPandas’我希望在每个地图调用中都有spark DataFrame对象,而不是’itertools.chain’.为什么...

python – dask DataFrame相当于pandas DataFrame sort_values【代码】

对于dask DataFrame,pandas中的sort_values相当于什么?我正在尝试扩展一些具有内存问题的Pandas代码,而不是使用dask DataFrame. 相当于:ddf.set_index([col1, col2], sorted=True)?解决方法:并行排序很难. Dask.dataframe中有两个选项 set_index 与现在一样,您可以使用单个列索引调用set_index:In [1]: import pandas as pdIn [2]: import dask.dataframe as ddIn [3]: df = pd.DataFrame({'x': [3, 2, 1], 'y': ['a', 'b', 'c...

python – pandas使用混合列类型增加dataframe的单元格值【代码】

我想增加一个数据帧的单元格:from pandas import DataFrame foo = DataFrame([[1,'a'],[2,'b'],[3,'c']],columns=['a','z']) foo.ix[0,['a']] += 1这给出了以下错误:--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-141-cf9b905bd544> in <module>()1 foo = DataFrame([[1,'a'],[2,'b'],[3,'c']],co...

INDEX - 相关标签