【python – pandas透视数据帧,重复行】教程文章相关的互联网学习教程文章

python – 检查字符串是否在pandas数据帧中【代码】

我想看看我的数据帧中的特定列中是否存在特定字符串. 我收到了错误ValueError: The truth value of a Series is ambiguous. Use a.empty,a.bool(), a.item(), a.any() or a.all().import pandas as pdBabyDataSet = [('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)]a = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births'])if a['Names'].str.contains('Mel'):print "Mel is there"解决方法...

python – 将包含多行JSON的文件加载到Pandas中【代码】

我试图在JSON文件中读入Python pandas(0.14.0)数据帧.这是JSON文件的第一行:{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken caesar salad wrap is my f...

python – 要列出的Pandas DataFrame列【代码】

参见英文答案 > How do I convert a pandas Series or index to a Numpy array? 7个> get list from pandas dataframe column 6个我根据满足的另一列中的条件从列中提取数据的子集. 我可以返回正确的值,但它位于pandas.core.frame.DataFrame中.如何将其转换为列表?import pandas as pdtst = pd.read_csv('C:\\SomeCSV.csv')lookupValue = tst[...

Python Pandas为所选列的行方向最大值添加列【代码】

参见英文答案 > Find the max of two or more columns with pandas 2个 data = {'name' : ['bill', 'joe', 'steve'],'test1' : [85, 75, 85],'test2' : [35, 45, 83],'test3' : [51, 61, 45]} frame = pd.DataFrame(data)我想添加一个新列,显示每行的最大值. 期望的输出:name test1 test2 test3 HighScorebill 75 75 85 85joe 35 45 83 83 steve 51 61 45 61 有...

Python:为pandas timestamp增加小时数【代码】

我将csv文件读入pandas dataframe df,我得到以下内容:df.columns Index([u'TDate', u'Hour', u'SPP'], dtype='object') >>> type(df['TDate'][0]) <class 'pandas.tslib.Timestamp'>type(df['Hour'][0]) <type 'numpy.int64'>>>> type(df['TradingDate']) <class 'pandas.core.series.Series'> >>> type(df['Hour']) <class 'pandas.core.series.Series'>Hour和TDate列都有100个元素.我想将Hour的相应元素添加到TDate中. 我尝试了...

python – pandas样式背景渐变行和列【代码】

添加背景渐变的pandas style option非常适合快速检查输出表.但是,它可以按行方式或按列方式应用.是否可以立即将其应用于整个数据框? 编辑:最低工作示例:df = pd.DataFrame([[3,2,10,4],[20,1,3,2],[5,4,6,1]]) df.style.background_gradient()解决方法:目前,您无法同时为Nickil Maveli所指示的行/列设置background_gradient.诀窍是自定义pandas function background_gradient:import pandas as pd import matplotlib.pyplot as...

python – 为什么pandas应用计算两次【代码】

我在熊猫的DataFrame对象上使用apply方法.当我的DataFrame有一个列时,看起来应用函数被调用两次.问题是为什么?而且,我可以阻止这种行为吗? 码:import pandas as pddef mul2(x):print 'hello'return 2*xdf = pd.DataFrame({'a': [1,2,0.67,1.34]})print df.apply(mul2)输出:hello hello0 2.00 1 4.00 2 1.34 3 2.68我正在应用的函数中打印’hello’.我知道它被应用了两次因为’你好’打印了两次.更重要的是,如果我有两列,’...

python – 使用条件在pandas数据帧中生成新列【代码】

我有一个像这样的pandas数据框:portion used 0 1 1.0 1 2 0.3 2 3 0.0 3 4 0.8我想基于使用的列创建一个新列,以便df看起来像这样:portion used alert 0 1 1.0 Full 1 2 0.3 Partial 2 3 0.0 Empty 3 4 0.8 Partial>基于创建新的警报列>如果使用的是1.0,则警报应为Full.>如果使用的是0.0,则警报应为空.>否则,警报应为部分. 最好的方法是什...

Python3 pandas 操作列表 简例【代码】

1.首先需要安装pandas, 安装的时候可能由依赖的包需要安装,根据运行时候的提示,缺少哪个库,就pip 安装哪个库。 2.示例代码 import pandas as pd from pandas import ExcelWriterEX_PATH = "E:\\code\\test2.xlsx"#读取excel里面的内容 data = pd.read_excel(EX_PATH,sheet_name='Sheet1')#新增加一列内容 lista = [21, 21, 20, 19, 19, 22] data['new_column'] = pd.Series(lista)#因为lista的长度,跟excel中已存在的不一致,...

python – 在特定列上的pandas上滚动平均值【代码】

我有一个这样的数据框,从CSV导入.stock pop Date 2016-01-04 325.316 82 2016-01-11 320.036 83 2016-01-18 299.169 79 2016-01-25 296.579 84 2016-02-01 295.334 82 2016-02-08 309.777 81 2016-02-15 317.397 75 2016-02-22 328.005 80 2016-02-29 315.504 81 2016-03-07 328.802 81 2016-03-14 339.559 86 2016-03-21 352.160 82 2016-03-28 348.773 84 2016-04-04 346.482 83 201...

python – 查找月末Pandas DataFrame系列【代码】

我在DataFrame中有一个系列,我最初将其作为对象读取,然后需要将其转换为yyyy-mm-dd形式的日期,其中dd是月末. 作为一个例子,我有DataFrame df,其中Date作为对象列:... Date ... ... 200104 ... ... 200508 ...当这一切都说完了,我想要的是一个日期对象:... Date ... ... 2001-04-30 ... ... 2005-08-31 ...这样df [‘Date’].item()返回datetime.date(2001, 04, 30)我已经使用以下代码几乎到了那...

python – 在Pandas DataFrame中选择多个列范围【代码】

我必须阅读一些Excel格式的文件和一些CSV格式的文件.有些文件有数百列. 有没有办法选择多个列范围而不指定所有列名称或位置?例如,选择列1-10,15,17和50-100:df = df.ix[1:10, 15, 17, 50:100]我需要知道在从Excel文件和CSV文件创建数据框时以及在创建数据框架后如何执行此操作.解决方法:使用np.r_np.r_[1:10, 15, 17, 50:100]array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 15, 17, 50, 51, 52, 53, 54, 55,56, 57, 58, 59, 60, 61...

python – NumPy版本的“指数加权移动平均线”,相当于pandas.ewm().mean()【代码】

如何获得NumPy中的指数加权移动平均值,就像下面的pandas一样?import pandas as pd import pandas_datareader as pdr from datetime import datetime# Declare variables ibm = pdr.get_data_yahoo(symbols='IBM', start=datetime(2000, 1, 1), end=datetime(2012, 1, 1)).reset_index(drop=True)['Adj Close'] windowSize = 20# Get PANDAS exponential weighted moving average ewm_pd = pd.DataFrame(ibm).ewm(span=windowSize,...

python – 在pandas DataFrame中的列上的.str.split()操作之后获取最后一个“列”【代码】

我在pandas DataFrame中有一个列,我想在一个空格上拆分.使用DataFrame.str.split(”)分割很简单,但我不能从最后一个条目创建一个新列.当我.str.split()列我得到一个数组列表,我不知道如何操纵它来获取我的DataFrame的新列. 这是一个例子.该列中的每个条目都包含“符号数据价格”,我想分拆价格(最终在一半的情况下删除“p”…或“c”).import pandas as pd temp = pd.DataFrame({'ticker' : ['spx 5/25/2001 p500', 'spx 5/25/2001 ...

python – 在Pandas中有一种方法可以在dataframe.apply中使用之前的行值,同时在apply中计算前一个值吗?【代码】

我有以下数据帧:Index_Date A B C D===============================2015-01-31 10 10 Nan 102015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 2802015-02-03 10 100 Nan 250要求:Index_Date A B C D===============================2015-01-31 10 10 10 102015-02-01 2 3 23 222015-02-02 10 60 290 2802015-02-03 10 100 3000 250C列...