【python – Pandas 0.8 read_csv无法识别’dtype’参数】教程文章相关的互联网学习教程文章

python-在Pandas的3列的笛卡尔乘积后组织行【代码】

我有3个清单,如以下可重现的示例所示:year = [2015, 2016, 2017] month = [1, 2] ids = ['x', 'y', 'z', 'w'] 我想创建一个非常简单的任务,即创建一个最终的数据帧,在该数据帧中,我将3列的行作为列值的排列或笛卡尔积进行排序. 就像是:最后,我想添加一个“ Epoque”列,其引用为:2014年12月等于“ 1”,2015年1月等于“ 2”,2015年2月等于“ 3”,因此on(序列将继续以初始参考Dec-2014 =’1′(对于’Epoque’值))… 最终所需的输...

python-使用Pandas中的方法链接分配给列的子集【代码】

我想使用Pandas方法链接的现代方法将值分配给列的子集. 假设我有以下数据框df = pd.DataFrame({'a': [1, 0, 0, 1]})a 0 1 1 0 2 0 3 1我想达到相当于df.loc[df.a == 1, 'a'] = 2用类似的东西df.query('a == 1').assign(a=2)但是,以上内容创建了一个子集数据框,并且没有修改整个数据框.这有可能实现吗?解决方法:顾名思义,查询方法用于查询数据框,而不用于设置值. 因此,loc完全合适,请注意您可以通过字符串将其分配给系列:df.l...

python-使用pandas数据框和约束最小化距离(K​​nn)【代码】

我正在尝试第一次使用Scipy和Scipy最小化.我已经阅读了文档并看过一些YT教程,似乎每次我们都需要最小化一个变量时,我们都需要对当前问题进行数学表示. 就我而言,我有一个代表我的数据集的玩具示例.我有 : >产品清单>客户清单和关于他们是否购买产品的二进制答复>我正在尝试对客户进行分类的多个集群.存储的值表示群集的中心,在优化步骤之前将其设置为0. 我所做的工作非常基础,对于每个群集,我都在计算每个群集值和客户交易之间的平...

python-按列名称处理pandas数据框值【代码】

对于我的pandas数据框,我想将所有值转换为值本身和列名称的元组,例如,“ x”列中的“ a”值将变为(a,x).我还没有遇到过这样做的体面方法.对于数据框df df [column]确实给出了列的名称,我无法检索到它. 总体而言,这与一个更大的问题有关,我也无法解决,如果有某种方法可以做到这一点,请告诉:我有一个测试回合的数据框,各列是参与者测试的价值,即参与者在测试中的分数. 例如:John Mary Peter1 9 3 32 0 8 ...

python-Pandas plot.density和plot.kde有什么区别?

Pandas plot.density()和plot.kde()函数之间有区别吗?解决方法:根据《 Pandas API参考》,除了名称之外,plot.density()和plot.kde()之间没有区别.这两个功能完全相同. 正如@RichieK在评论中提到的那样,当您单击页面右上角的[source]时,两个API Reference页面都将您带到同一source code.因此确认功能完全相同.

python-更改pandas groupby使用的函数中的值【代码】

我正在执行以下操作:def percentage(x):return x[(x<=5)].count() / x.count() * 100full_data = full_data.groupby(['Id', 'Week_id'], as_index=False).agg({'Volume': percentage})但是我想用百分比函数中的x <= 7,x <= 9,x <= 11等多个值连续进行分组.代替编写多个函数并调用它们的最简单方法是什么?所以基本上我想避免做这样的事情: def percentage_1(x):return x[(x<=5)].count() / x.count() * 100full_data_1 = full_da...

创建列列表,并使用Pandas(Python)在新列中求和【代码】

我确实知道有些帖子与我的问题非常相似,但是没有一个成功地给了我正确的答案.我希望对熊猫数据框的每一行执行取自几列的值的总和.随着列数趋于变化,我希望从列列表中执行此总和. 目前,我的代码如下所示:df['Sum'] = df['Col A'] + df['Col E'] + df['Col Z']我希望它是这样的:df['Sum'] = sum(list_of_my_columns)要么df[list_of_my_columns].sum(axis=1)但是他们两个都返回错误.可能是因为我的列表创建不正确吗?这是我的方法:...

python-根据其他列值创建Pandas Dataframe行【代码】

我有一个包含三列的数据框:order_no product quantity 0 5bf69f 3 0 5beaba 2 1 5bwq21 1 1 5bf69f 1我想如果数量值大于1则创建行,如下所示:order_no product quantity 0 5bf69f 1 0 5bf69f 1 0 5bf69f 1 0 5beaba 1 0 5beaba 1 1 5bwq21 1 1 5bf69f 1解决方法:首先是必要的唯一索引值,因此必要...

python-如果值列表出现在pandas数据框的任何列中,如何打印行【代码】

如果值出现在熊猫数据框的任何列中,如何打印行 我想打印一个数据框的所有行,从任何列的值列表中找到一些值.数据框遵循以下结构:1476 13/03/2013 4 10 26 37 47 57 1475 09/03/2013 12 13 37 44 48 51 1474 06/03/2013 1 2 3 11 28 43 1473 02/03/2013 2 12 33 57 58 60 1472 27/02/2013 12 18 23 25 45 50 1471 23/02/2013 10 25 33 36 40 58 1470 20/02/2013 2 34 36 38 51 55 1469 16/02/2013 4 13 35 54 56 58 1468 13/...

python-基于另一列的值对Pandas DF的一列进行条件操作【代码】

我下面有2列的pandas数据框.df = pd.DataFrame({'quantity':[15, 30, 35, 20], 'sign':[1,1,2,1]})如果该行中的对应符号值等于2,我想应用条件语句并将每行中的数量值乘以-1.我不想创建新列.我只想将此应用于数量列. 我尝试使用.loc和.apply(lamda x :),但是我不能正确地应用它们.任何帮助表示赞赏.解决方法:将DataFrame.loc与掩码乘以Series.eq相等并按标量乘以:df = pd.DataFrame({'quantity':[15, 30, 35, 20], 'sign':[1,1,2,1...

python-从pandas DataFrame返回最后一个有效(非null)值【代码】

假设我有一个数据框看起来像:a b 0 11 A 1 -2 A 2 3 A 3 NA A 4 0.5 B 5 NA B 6 -9 B我可以按“ b”创建组.有没有一种快速的方法来获取每个组的“ a”中的最后一个非NA值?在这种情况下,A组为3,B组为-9. (在这种情况下,序列“ a”按照给定的顺序排序,但可能并非如此.可能还有另一列“ c”,据此定义了“最后一个”.) 我通过查看grouped.groups字典来编写自己的循环代...

python-在pandas中添加DataFrames【代码】

我有不同名称的DataFrame,但是都由相同的时间序列索引.现在,我想在其中添加值.到目前为止,我为此使用了一个for循环.如果我使用df1 df2,则会得到一个具有相同索引的DataFrame,但每个名称都有一个带有所有NaN值的列.如果我使用df1.add(df2)(具有可选的fill_value = 0),则会得到一个具有第一个DataFrame值的DataFrame,这与使用df1.combineAdd(df2)时的结果相同. 除了循环遍历所有索引和添加值以外,如何添加值的任何提示?解决方法:如果...

python-根据pandas数据框中的列标签对数据进行分组【代码】

我一直在阅读有关pandas数据框中的分层索引和多索引的信息,但似乎这些都是针对有序标签的.例如,我的数据如下所示: 我希望能够根据列标签将数据分组在一起.通过平均将第3行中所有带有’d’的列汇总在一起. 将此excel数据(或绝对需要的csv)放入数据帧的最佳方法是什么,以便我可以执行这些操作,以及如何进行操作? 任何建议或参考将不胜感激 编辑 我尝试使用以下命令从csv加载数据:data = pd.read_csv('Dataset.csv', index_col=0, ...

在使用python / pandas DataFrame计算值之前验证行【代码】

我是python和pandas的新手,在尝试了几种方法之后,我希望根据我的分析目标,就结构该数据集的最佳方法,向所有人提出一些建议. 给定以下DataFrame:id event timestamp 1 "page 1 load" 1/1/2014 0:00:01 1 "page 1 exit" 1/1/2014 0:00:31 2 "page 2 load" 1/1/2014 0:01:01 2 "page 2 exit" 1/1/2014 0:01:31 3 "page 3 load" 1/1/2014 0:02:01 3 "page 3 exit" 1/1/2014 0:02:31 4 "p...

使用Pandas读取Python中的csv文件块【代码】

我有一个有关读取csv文件的片段的问题.当只使用读取文件时pd.read_csv(path,sep=';',na_values=[''],thousands='.',decimal=',',date_parser=[0])我得到:EUR 1Y 2Y 3Y 0 2013-09-25 0,198 0,307 0,485 1 2013-09-26 0,204 0,318 0,497 2 2013-09-27 0,204 0,306 0,487 3 2013-09-28 0,204 0,306 0,487 4 USD 1Y 2Y 3Y 5 2013-09-25 0,462 0,571 0,749 6 2013-09-26 0,468 ...