【python-熊猫:重组DataFrames】教程文章相关的互联网学习教程文章

python – DataFrame系列与Pandas中的Panel之间的区别【代码】

是一个pandas.Series由多个pandas.DataFrame组成,类似于pandas.Panel?初看起来,它们似乎都是非常相似的数据结构.您何时决定使用一系列数据框,何时使用面板?解决方法:Panel通常具有更高的内存/计算效率 – 一系列DataFrame与一系列任意python对象的差别不大 – 而Panel api应该使操作更容易.In [18]: dfs = {i:pd.DataFrame({'a':np.linspace(0,100, 10000), 'b':np.linspace(0,100, 10000)}) for i in range(1000)}In [19]: s = ...

Python:SettingWithCopyWarning:尝试在DataFrame的切片副本上设置值【代码】

我的熊猫数据帧:dframe = pd.DataFrame({"A":list("abcde"), "B":list("aabbc"), "C":[1,2,3,4,5]}, index=[10,11,12,13,14])A B C 10 a a 1 11 b a 2 12 c b 3 13 d b 4 14 e c 5我想要的输出:A B C a b c 10 a a 1 1 None None 11 b a 2 2 None None 12 c b 3 None 3 None 13 d b 4 None 4 None 14 e c 5 None None 5想...

Python Dataframe 分组排序和 Modin【代码】

Python Dataframe 分组排序和 Modin 1、按照其中一列进行排序 在dataframe中,按照其中的一列排序:比如q值倒排 (1)rank方法data[new_rank] = data.groupby(house_code)[q_score_new].rank(ascending=False, method=dense)(2)sort_values方法data.sort_values([q_score_new], ascending=False).groupby([house_code]).cumcount() + 1 2、按照其中多列进行排序 在dataframe中,按照其中的多列排序:比如q值倒排、经纪人ucid正排 s...

如何解决Python Pandas DataFrame的“Out of bounds nanosecond timestamp”错误?【代码】

以下代码抛出“超出界限的纳秒时间戳:1452-04-15 00:00:00“错误.如果我将日期字符串替换为某些最近的日期,例如2017-01-01,则相同的代码可以正常工作.df=pd.DataFrame({'Date':np.arange('1452-04-15', '1519-05-02', dtype='datetime64[D]')})此示例代码用于提供重现错误的简便方法.我真正想要做的是将包含非常早期日期的csv读入数据帧,并将字符串日期转换为np.datetime64 [D]或任何可比较的日期格式.解决方法:你需要period_rang...

python – Pandas dataframe read_excel不将空白左上角的单元格视为列?【代码】

我正在尝试将Excel或CSV文件读入pandas数据帧.该文件仅读取前两列,前两列的顶行将是列名.问题是当我在Excel文件中将顶行的第一列清空时.IDs 2/26/2010 2 3/31/2010 4 4/31/2010 2 5/31/2010 2然后,以下代码的最后一行失败:uploaded_file = request.FILES['file-name'] if uploaded_file.name.endswith('.csv'):df = pd.read_csv(uploaded_file, usecols=[0,1]) else:df = pd.read_excel(uploaded_file, usecols=[0,1]...

python – rpy2转换矩阵 – > DataFrame【代码】

我对这个看似简单的操作有困难,我认为这个操作先前已经解决但我找不到任何例子. 在R环境中,@ data是DataFrame类型,但是rpy2(2.2)返回一个Matrix.有没有一种方法可以将m转换为DataFrame或让robjects.r(查询)返回DataFrame?from rpy2.robjects.packages import importr import rpy2.robjects as robjectsfimport = importr('fImport')yahooImport = robjects.r('function(x) yahooImport(x)@data') qqq = yahooImport("QQQ")print t...

python数据分析-05DataFrame深入【代码】

import pandas as pdimport numpy as npfrom pandas import Series,DataFrame#df1 = DataFrame({城市:["北京","上海","广州"],人口:[1000,2000,1500]})# print(df1)# 城市 人口# 0 北京 1000# 1 上海 2000# 2 广州 1500#方法1:# df1["GDP"] = Series([1000,2000,1500])# print(df1)# 城市 人口 GDP# 0 北京 1000 1000# 1 上海 2000 2000# 2 广州 1500 1500#方法2:# df2 = DataFrame({城市:["北京",...

python数据分析-06DataFrame继续深入【代码】

import pandas as pdimport numpy as npfrom pandas import Series,DataFrame#重命名DataFrame的indexdf1 = DataFrame(np.arange(9).reshape(3,3),index=["BJ","SH","GZ"],columns=["A","B","C"])# print(df1)# A B C# BJ 0 1 2# SH 3 4 5# GZ 6 7 8#方法1:# df1.index = Series(["bj","sh","gz"])# print(df1)# A B C# bj 0 1 2# sh 3 4 5# gz 6 7 8#方法2:# df1.index = df1.index.map(str.uppe...

python – 使用点符号(如DataFrame)访问Pandas Series项【代码】

是否可以通过点表示法而不是括号表示法访问系列项目?s = pandas.Series(dict(a=4, b=4)) print s['a'] # works print s.a # fails我们可以使用DataFrame:df = pandas.DataFrame([dict(a=4, b=4), dict(a=4, b=4)]) print df['a'] # works print df.a # works解决方法:我通过重载Series .__ get_attr__方法获得行为:def my__getattr__(self, key):# If attribute is in the self Series instance ...if key in self:# ...

python – 计算pandas DataFrame中列对的减法【代码】

我使用大尺寸(48K行,最多数十列)DataFrames.在他们操纵的某个时刻,我需要对列值进行成对减法,我想知道是否有更有效的方法来做到这一点而不是我正在做的那个(见下文). 我目前的代码:# Matrix is the pandas DataFrame containing all the datacomparison_df = pandas.DataFrame(index=matrix.index)combinations = itertools.product(group1, group2)for observed, reference in combinations:observed_data = matrix[observed]ref...

访问python子列表以导入到pandas DataFrame中【代码】

我正在尝试将yql中的幻想篮球数据导入到熊猫数据框架中,但我遇到了嵌套内容的问题. 来自yql(results.rows)的数据看起来像这样(当我使用type(results.rows)时,我得到列表).{u'display_position': u'PF', u'editorial_player_key': u'nba.p.4175', u'editorial_team_abbr': u'Uta', u'editorial_team_full_name': u'Utah Jazz', u'editorial_team_key': u'nba.t.26', u'eligible_positions': {u'position': u'PF'}, u'headshot': {u'...

python – 逐个构建DataFrame的最快方法是什么?【代码】

我正在从bloomberg下载价格数据,并希望以最快和最少内存密集的方式构建DataFrame.假设我通过python向bloomberg提交数据请求,以获取从1-1-2000到1-1-2013的所有当前S& P 500股票的价格数据.数据由股票代码返回,然后是日期和价值,一次一个.我目前的方法是为要存储的日期创建一个列表,并为要存储的价格创建另一个列表,并在从Bloomberg数据请求响应中读取每个列表时附加日期和价格.然后,当为特定的股票代码读取所有日期和价格时,我使用...

python – 如何在不复制数据的情况下连接pandas DataFrame?【代码】

我想连接两个pandas DataFrames而不复制数据.也就是说,我希望连接的DataFrame是两个原始DataFrame中数据的视图.我尝试使用concat(),但没有用.此代码块显示更改基础数据会影响连接的两个DataFrame,但不会影响连接的DataFrame:arr = np.random.randn(12).reshape(6, 2) df = pd.DataFrame(arr, columns = ('VALE5', 'PETR4'), index = dates) arr2 = np.random.randn(12).reshape(6, 2) df2 = pd.DataFrame(arr, columns = ('AMBV3'...

python – groupby – TypeError’DataFrame’对象不可调用【代码】

新手在这里 – 我的第一次尝试似乎没问题,但这是我第二次使用大熊猫.在Windows 7上使用Pandas 0.12.0时,我从SQL中读取了2个数据帧一个按预期使用groupby,所以我确定我的问题不是语法.但另一方面,type(reddf)返回pandas.core.frame.DataFrame,当我尝试reddf.groupby(‘any column’)时,我得到 – 最后几行 – c:\python27\lib\site-packages\pandas\core\groupby.pyc in __init__(self, index, grouper, name, level, sort)1197...

python – 与空DataFrame合并【代码】

我正在尝试将数据帧(df1)与另一个df2可能为空的数据帧(df2)合并.合并条件是df1.index = df2.z(df1永远不会为空),但是我收到以下错误. 有没有办法让这个工作?In [31]: import pandas as pd In [32]: df1 = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [1, 2, 3]}) df2 = pd.DataFrame({'x':[], 'y':[], 'z':[]}) dfm = pd.merge(df1, df2, how='outer', left_index=True, right_on='z') --------------------------------...