【python – pandas dataframe,按值复制】教程文章相关的互联网学习教程文章

python – pandas plot dataframe barplot with category by category【代码】

我想用pandas绘制一个不同颜色的条形图,用于列中的类别. 这是一个简单的例子:(索引是可变的)df:value group variable a 10 1 b 9 1 c 8 1 d 7 2 f 6 2 g 5 3 h 4 3我想制作一个带有着色组的条形图.我还想指定颜色.在我的原始数据集中,我有很多goups.有人可以帮我吗?解决方法:只...

python – 将函数应用于DataFrame中的每个单元格【代码】

我有一个可能如下所示的数据框:A B C foo bar foo bar bar foo foo bar我想查看每行的每个元素(或每列的每个元素)并应用以下函数来获取后续DF:def foo_bar(x):return x.replace('foo', 'wow')A B C wow bar wow bar bar wow wow bar是否有一个简单的单行程可以为每个单元格应用一个函数? 这是一个简单的示例,因此除了应用函数之外,可能有更简单的方法来执行此特定...

如何在iPython笔记本中预览大型pandas DataFrame的一部分?【代码】

我刚开始使用IPython笔记本中的pandas并遇到以下问题:当从CSV文件读取的DataFrame较小时,IPython Notebook会在一个漂亮的表视图中显示它.当DataFrame很大时,这样的东西就是输出:In [27]:evaluation = readCSV("evaluation_MO_without_VNS_quality.csv").filter(["solver", "instance", "runtime", "objective"])In [37]:evaluationOut[37]:<class 'pandas.core.frame.DataFrame'> Int64Index: 333 entries, 0 to 332 Data column...

python – Pandas:通过多列查找另一个DataFrame中不存在的行【代码】

与此python pandas: how to find rows in one dataframe but not in another?相同但有多列 这是设置:import pandas as pddf = pd.DataFrame(dict(col1=[0,1,1,2],col2=['a','b','c','b'],extra_col=['this','is','just','something'] ))other = pd.DataFrame(dict(col1=[1,2],col2=['b','c'] ))现在,我想从df中选择其他行中不存在的行.我想通过col1和col2进行选择 在SQL中我会这样做:select * from df where not exists (select...

python – 向Spark DataFrame添加一个空列【代码】

如在Web上的many other locations中所述,向现有DataFrame添加新列并不简单.不幸的是,拥有此功能非常重要(即使它在分布式环境中效率低下),尤其是在尝试使用unionAll连接两个DataFrame时. 将空列添加到DataFrame以便于unionAll的最优雅的解决方法是什么? 我的版本是这样的:from pyspark.sql.types import StringType from pyspark.sql.functions import UserDefinedFunction to_none = UserDefinedFunction(lambda x: None, String...

python – 为pandas.DataFrame复制GROUP_CONCAT【代码】

我有一个pandas DataFrame df:+------+---------+ | team | user | +------+---------+ | A | elmer | | A | daffy | | A | bugs | | B | dawg | | A | foghorn | | B | speedy | | A | goofy | | A | marvin | | B | pepe | | C | petunia | | C | porky | +------+--------- 我想找到或编写一个函数来返回我将在MySQL中使用以下命令返回的...

python – 将数组或DataFrame与其他信息一起保存在文件中【代码】

统计软件Stata允许将短文本片段保存在数据集中.这可以使用notes和/或characteristics完成. 这对我来说是一个很有价值的功能,因为它允许我保存各种信息,从提醒和待办事项列表到有关我如何生成数据的信息,甚至是特定变量的估算方法. 我现在正试图在Python 3.6中提出类似的功能.到目前为止,我已经在线查看了一些帖子,但这些帖子并没有完全解决我想做的事情. 一些参考文章包括: > best way to preserve numpy arrays on disk> What is...

python – 从pandas中的dataframe列中删除空间【代码】

参见英文答案 > Removing space in dataframe python 2个我试图从我拥有的数据框中删除空格.列名称如下所示.我试图获取名称之间的空格,并将其替换为“_”,无论何时出现.['join_date' 'fiscal_quarter' 'fiscal_year' 'primary_channel''secondary_channel' 'customer_count' 'new_members' 'revisit_next_day''revisit_14_day' 'demand_1yr' 'revisit_next_day_rate''revisit_14_day_rate' 'de...

python – 如何使pandas dataframe列标题全部小写?【代码】

我想让我的pandas数据框中的所有列标题都小写 例 如果我有:data =country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 ....我想通过做类似的事情将XRAT改为xrat:data.headers.lowercase()所以我得到:country country isocode year xrat ...

python – 将Excel导入Panda Dataframe【代码】

以下仅是数据科学课程作业的开始.我希望这不是微不足道的.但我迷失了,无法找到答案.我被要求将Excelfile导入熊猫数据框并随后对其进行操作.该文件可在此处找到:http://unstats.un.org/unsd/environment/excel_file_tables/2013/Energy%20Indicators.xls 让我感到困难的是 a)有17行和一个页脚的’开销’b)前两列是空的c)索引列没有标题名称 经过几个小时的搜索和阅读后,我想出了这条无用的线:energy=pd.read_excel('Energy Indica...

python – 从pandas dataframe中删除非工作日行【代码】

我有一个数据框,其中包含df中小麦的第二个时间序列数据.df = wt["WHEAT_USD"]2016-05-02 02:00:00+02:00 4.780 2016-05-02 02:01:00+02:00 4.777 2016-05-02 02:02:00+02:00 4.780 2016-05-02 02:03:00+02:00 4.780 2016-05-02 02:04:00+02:00 4.780 Name: closeAsk, dtype: float64当我绘制数据时,由于周末,它有令人烦恼的水平线.有没有简单的方法可以简单地从数据框本身中删除非工作日. 就像是df = df.BDays()解决...

python – dask dataframe读取镶木地板架构差异【代码】

我做以下事情:import dask.dataframe as dd from dask.distributed import Client client = Client()raw_data_df = dd.read_csv('dataset/nyctaxi/nyctaxi/*.csv', assume_missing=True, parse_dates=['tpep_pickup_datetime', 'tpep_dropoff_datetime'])数据集取自Mathew Rocklin制作的演示文稿,并用作dask数据框演示.然后我尝试使用pyarrow将其写入镶木地板raw_data_df.to_parquet(path='dataset/parquet/2015.parquet/') # onl...

python – Pandas在DataFrame groupby上的百分比计数【代码】

我有一个DataFrame(mydf)沿着以下几行:Index Feature ID Stuff1 Stuff2 1 True 1 23 12 2 True 1 54 12 3 False 0 45 67 4 True 0 38 29 5 False 1 32 24 6 False 1 59 39 7 True 0 37 32 8 False 0 76 65 9 False 1 32 12 10 True 0 23 15 ..n True 1 ...

python – 将JSON API响应转换为pandas Dataframe【代码】

我正在努力将JSON API响应转换为pandas Dataframe对象.我已经阅读了类似问题/文档的答案,但没有任何帮助.我最接近的尝试如下:r = requests.get('https://api.xxx') data = r.text df = pd.read_json(data, orient='records')返回以下格式:0 {'type': 'bid', 'price': 6.193e-05, ...},1 {'type': 'bid', 'price': 6.194e-05, ...},3 {'type': 'bid', 'price': 6.149e-05, ...} etc数据的原始格式为:{'abc': [{'type': ...

python – 基于索引的Pandas Dataframe Mask【代码】

我有以下数据帧:import pandas as pd index = pd.date_range('2013-1-1',periods=10,freq='15Min') data = pd.DataFrame(data=[1,2,3,4,5,6,7,8,9,0], columns=['value'], index=index)如何根据索引值生成掩码?我知道我可以这样做:data['value'] > 3 Out[40]: 2013-01-01 00:00:00 False 2013-01-01 00:15:00 False 2013-01-01 00:30:00 False 2013-01-01 00:45:00 True 2013-01-01 01:00:00 True 2013-01-01...