【python-浮动到百分比样式错误的Pandas dataframe列】教程文章相关的互联网学习教程文章

python-用熊猫拆分DataFrame行【代码】

我目前正在尝试找出有效的方法,将单个panadas DataFrame行拆分为多个稍有变化的行.想象这样的结构:A C1 C2 C3 C4 1 a b c a 2 b a e b a 3 g c 4 d e我想以这样的结构结束:A C 1 a b 2 a c 3 a a 4 b a 5 b e 6 b b 7 b a 8 g c 9 d e 10 d e到目前为止,我一直在使用for循环并创建类似的字典(df是我的DataFrame):rows = [] for i, r in df.iterrows():...

python-重新排列pandas DataFrame的列,以使总数最高的列排在第一【代码】

我有这个DataFrame:df = pd.DataFrame({'c1':[1,2,3,4],'c2':[2,4,5,6],'c3':[5,7,9,10],'c4':[-1,3,1,0],'c5':[100,1000,1,2]}) dfc1 c2 c3 c4 c5 0 1 2 5 -1 100 1 2 4 7 3 1000 2 3 5 9 1 1 3 4 6 10 0 2我不知道该怎么办,就是快速对列进行排序,以便总c5最高的列排在最前面,然后是c3,c2,c1和c4:c1 c2 c3 c4 c5 0 1 2 5 -1 100 1 2 4 7 3 1000 2 3 5 ...

python-pandas.DataFrame.merge中的错误?【代码】

下列:q = pd.DataFrame([[1,2],[3,4]]) r = pd.DataFrame([[1,2],[5,6]], columns=['a','b']) pd.merge(q, r, left_on=q.columns, right_on=r.columns, how='left')引发错误:ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()以下不是:q = pd.DataFrame([[1,2],[3,4]]) r = pd.DataFrame([[1,2],[5,6]], columns=['a','b']) pd.merge(q, r, left_on=q.columns.tolist(...

python-使用熊猫在DataFrame中创建一个由列表组成的新列【代码】

给定以下DataFrame:t 0 3 1 5我想创建一个新列,其中wach条目是一个列表,该列表是其所在行的函数.特别是它应该具有一个列表,该列表包含不小于t列中条目的所有正整数.因此输出应为:t newCol 0 3 [1,2,3] 1 5 [1,2,3,4,5]换句话说,我想将list(range(1,t 1))应用于每一行.我知道如何循环执行,但是DataFrame较长,因此我正在寻找速度.谢谢.解决方法:这是使用NumPy方法的矢量化方法-a = df.t.values idx = a.cumsum() id_arr = n...

python-在不显示多余行的情况下以HTML显示Pandas DataFrame【代码】

如果使用DataFrame.set_index,则会得到以下结果:import pandas as pddf = pd.DataFrame([['foo',1,3.0],['bar',2,2.9],['baz',4,2.85],['quux',3,2.82]],columns=['name','order','gpa']) df.set_index('name')注意不必要的行…我知道这样做是因为它为列标题保留了左上角的单元格,但我不在乎,如果在演示文稿中使用它,它会使我的表显得有些不专业. 如果我不使用DataFrame.set_index,多余的行就消失了,但是我得到了数字行索引,我不想...

python-从pandas Dataframe列制作条形图【代码】

我正在尝试制作一个简单的条形图:高度是“数据框”列中值的频率 我一直遇到这个错误:ValueError:不兼容的大小:参数’height’必须为长度1或标量 码:import numpy as np import pandas as pd import matplotlib.pyplot as plt import pylab as pl matplotlib.style.use('ggplot') flags = [200, 201, 211, 237, 239, 250, 254, 255] frequencies = [158, 87, 5, 4] length = len(flags) plt.bar(length, frequencies.valu...

Python熊猫-Json到DataFrame【代码】

我有一个看起来像这样的复杂Json文件:{"User A" : {"Obj1" : {"key1": "val1","key2": "val2","key3": "val3",}"Obj2" : {"key1": "val1","key2": "val2","key3": "val3"}}"User B" : {"Obj1" : {"key1": "val1","key2": "val2","key3": "val3","key4": "val4"}} }我想将其转换为如下所示的数据框:key1 key2 key3 key4 User A Obj1 val1 val2 val3 NaNObj2 val1 val2 val3 NaN User B Obj1 val1 ...

Python Spark DataFrame:用SparseVector替换null【代码】

在Spark中,我有以下名为“ df”的数据框,其中包含一些空条目:+-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,0...| null| | 220|(5,[0,2,3],[0.1,0...|(10,[1,2,6],[0.1,...| | 225| null|(10,[1,3,5],[0.1,...| +-------+...

Python Pandas:在时区转换后重新索引DataFrame【代码】

让我们考虑以下数据帧,该数据帧跨度为1月16日上午10点至下午4点.date_range1 = pd.date_range(dt(2017,1,16,10), dt(2017,1,16, 20), freq='2H') df = pd.DataFrame(data = np.random.rand(len(date_range1),2), index = date_range1)我用一个稍长的DateTimeindex重新索引它,其范围从0am到11pm,并获得所需的结果,NaN填充了0-10am到4-11pm之间的时间范围,其中没有数据:date_range2 = pd.date_range(dt(2017,1,16,0), dt(2017,1,16,...

python-为什么即使删除列,列也仍保留在DataFrame的索引中【代码】

考虑以下代码:>>> data = pandas.DataFrame({ 'user': [1, 5, 3, 10], 'week': [1, 1, 3, 4], 'value1': [5, 4, 3, 2], 'value2': [1, 1, 1, 2] }) >>> data = data.pivot_table(index='user', columns='week', fill_value=0) >>> data['target'] = [True, True, False, True] >>> datavalue1 value2 target week 1 3 4 1 3 4 user 1 5 0 0 1 0 0 True 3 0 3 0 0 1...

python-为什么DataFrame中缺少分区键列【代码】

我有一个加载DataFrame对象,然后使用DataFrame partitionBy方法将数据保存为实木复合地板格式的作业.然后,我发布创建的路径,以便后续作业可以使用输出.输出中的路径如下所示:/ptest/_SUCCESS /ptest/id=0 /ptest/id=0/part-00000-942fb247-1fe4-4147-a41a-bc688f932862.snappy.parquet /ptest/id=0/part-00001-942fb247-1fe4-4147-a41a-bc688f932862.snappy.parquet /ptest/id=0/part-00002-942fb247-1fe4-4147-a41a-bc688f932862...

python-修复pandas DataFrame中的索引列【代码】

我有一个带有以下数据的Pandas DataFrame(来自Jupyter Notebook的输出)无论如何,我可以命名第一列吗?我无法访问它,因为它看起来像是行名列. 或者以其他方式提取第一个未修饰的列,并使用[‘accessions’]和[‘symbols’]创建一个新的数据框解决方法:pd.DataFrame.rename_axis 那是指数…使用@JesseVogt的样本数据框dfdf = pd.DataFrame(data={'asc': [['XM', 'NM', 'XM'], ['NM', 'XM'], ['NM', 'NM', 'NM'], ['NM']],'sym': [{'CP...

Python-将SciPy Beta Distribution应用于Pandas DataFrame的所有行【代码】

在SciPy中,可以按以下方式实现Beta分发:x=640495496 alpha=1.5017096 beta=628.110247 A=0 B=148000000000 p = scipy.stats.beta.cdf(x, alpha, beta, loc=A, scale=B-A)现在,假设我有一个列x,alpha,beta,A,B的Pandas数据框.如何将beta分布应用于每一行,并将结果追加为新列?解决方法:考虑到我怀疑大熊猫适用于所有行,并且scipy.stats分布在每次调用中都有相当大的开销,因此我将使用向量化版本:>>> from scipy import stats >>>...

python-在Pandas Dataframe中插入字典(JSON)【代码】

我有一个用例,需要将数据框的现有列转换为JSON并仅存储在一个列中. 到目前为止,我已经尝试过了:import pandas as pd import json df=pd.DataFrame([{'a':'sjdfb','b':'jsfubs'},{'a':'ouhbsdv','b':'cm osdn'}]) #Random data jsonresult1=df.to_json(orient='records') # '[{"a":"sjdfb","b":"jsfubs"},{"a":"ouhbsdv","b":"cm osdn"}]'但是我希望数据只是字典的字符串表示形式,而不是列表.所以我尝试了这个:>>>jsonresult2=df....

python-Pandas DataFrame:查找两列相等/相同的特定长度序列的索引值【代码】

我有一个熊猫DataFrame,其定义如下:# -*- coding: utf-8 -*- import datetime as dt import pandas as pddata = [[1, 1], [1, 1], [2, 2], [2, 2], [2, 2], [3, 3], [4, 4], [4, 4],[4, 4], [5, 5], [5, 5]] df = pd.DataFrame(data, columns=['A', 'B']) df.index = pd.date_range(dt.datetime(2012, 1, 1), periods=len(df), freq='H')print(df)和产量:A B 2012-01-01 00:00:00 1 1 2012-01-01 01:00:00 1 1 2012-01-01 0...

错误 - 相关标签