【python – 合并pandas数据帧,其中一个值介于两个其他值之间】教程文章相关的互联网学习教程文章

python-在Pandas中的值周围选择行【代码】

我有一个带有连续度量的DataFrame,以偶发事件为标志:TimeIndex Event Value 0 NaN 4.099969 1 NaN 3.833528 2 NaN -1.335025 3 A 4.420085 4 NaN 4.508899 5 NaN 4.557383 6 B -3.377152 7 NaN 4.508899 8 NaN -1.919803 9 A 2.18520 10 NaN 3.821221 11 C...

python-用Multiindex列和不规则的时间戳连接Pandas DataFrames【代码】

我在列表中有很多单独的数据框,每个数据框都有多索引列,并且是针对不同时间段和长度的时间序列.我想做三件事: >汇集所有单独的数据框>任何具有相同多索引列的数据框都会追加和排序沿时间轴>具有不同多索引列的数据框将并置列轴(轴= 1) 我知道默认情况下,`pandas.concat(objs,axis = 1)合并列并对行索引进行排序,但是我也希望具有相同标签和级别的数据帧在较长的时间轴上连接,而不是完全将它们放在一边并排. 我还要提到的是,具有相...

删除包含特定模式的行[Python / Pandas]【代码】

我是Python和Pandas的新手,我花了很多时间进行搜索,但未能找到解决我特定问题的答案. 我有一个数据框,其中前几行只是以’#’开头的注释,其后是包含行和列的普通数据框.我有数百个此类文本文件需要阅读和处理.例如: ‘#’等等 ‘#’等等 ‘#’等等 列1列2列3 a1 b1 c1 a2 b2 c2 等等 我想删除所有以“#”开头的行.有人可以告诉我如何在熊猫中做到这一点吗? 另外,我尝试使用以下代码读取文本文件:my_input=pd.read_table(filename...

python-Pandas DataFrame使用where()将列与阈值列进行比较【代码】

我需要在几列中将它们的绝对值小于阈值列中的对应值的值为空import pandas as pdimport numpy as npdf=pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'key2': [2000, 2001, 2002, 2001, 2002], 'data1': np.random.randn(5),'data2': np.random.randn(5),'threshold': [0.5,0.4,0.6,0.1,0.2]}).set_index(['key1','key2'])data1 data2 threshold key1 key2 Ohio 2000 0.201240 ...

python-从Pandas Dataframe写入格式化的二进制文件【代码】

我已经看到了一些方法可以将Python中的格式化二进制文件读取到Pandas,也就是说,我正在使用这段代码,该代码使用NumPy从以dtype给出的结构格式化的文件中读取.import numpy as np import pandas as pdinput_file_name = 'test.hst'input_file = open(input_file_name, 'rb') header = input_file.read(96)dt_header = np.dtype([('version', 'i4'),('copyright', 'S64'),('symbol', 'S12'),('period', 'i4'),('digits', 'i4'),('time...

python-在numpy / pandas中查找特定值之前的最后一个值【代码】

我有一个Pandas Series,我想找到一些值在其他特定值之前最后一次出现的索引/位置(或布尔掩码). 例如.给出:df = pd.DataFrame({'x':np.random.randint(10, 1000000)})我想找到0的所有位置,它们是9之前最后出现的位置.因此,如果我的数组是[9, 0, 3, 0, 1, 9, 4, 9, 0, 0, 9, 4, 0]我只对位置3和9的零感兴趣.请注意,在这种情况下,我不必担心位置12的最后0会发生什么.我宁愿不要将其包含在返回值集中,但并不重要. 我当前的方法是这样的...

python-使用pandas pd.cut生成带有statsmodels的分类变量【代码】

我尝试使用pd.cut从连续变量创建分类变量.我想在随后的statsmodel定义的包括此虚拟变量的回归中使用它.当我创建以这种方式创建的类别变量时,出现错误TypeError: data type not understood. 下面包括一个测试用例.import numpy as np import pandas as pd import statsmodels as sm import statsmodels.formula.api as smf df = pd.DataFrame(np.random.randn(6,4)) df.columns = ['A', 'B', 'C', 'D'] df['ttt']=pd.cut(df['D']...

python-将层次结构(树状)的XML读取到pandas数据框中,以保留层次结构【代码】

我有一个XML文档,其中包含分层的树状结构,请参见下面的示例. 该文档包含多个< Message>标签(为方便起见,我仅复制了其中之一). 每个< Message>本身具有一些关联的数据(ID,状态,优先级). 此外,每个< Message>可以包含一个或多个< Street>子级又具有一些相关数据(< name>,< length>). 此外,每个< Street>可以具有一个或多个< Link>子级又具有自己的相关数据(< id>,<方向>). XML文档示例:<?xml version="1.0" encoding="ISO-8859-1"?>...

python-Pandas dataframe.dot分割方法【代码】

我正在尝试划分两个不同长度的序列,以返回它们的矩阵乘积数据框. 我可以使用点方法(from this answer)将它们相乘:# Create series average_read_intervals = pd.Series([10,20,30,40],index=['a','b','c','d']) region_lengths = pd.Series([100,200,300,400,500,1000],index=['z','y','x','w','v','u'])# Convert to dataframes R = pd.DataFrame(region_lengths) A = pd.DataFrame(average_read_intervals)# Dot multiplication...

python-无论长度如何,Pandas Dataframe上最干净的迭代/功能应用程序【代码】

我一直在努力干净地迭代或将函数应用于可变长度的Pandas DataFrame.具体来说,长度为1的DataFrame slice(Pandas系列). 一个简单的例子,一个DataFrame和一个作用于它的每一行的函数.数据帧的格式是已知/预期的.def stringify(row):return "-".join([row["y"], str(row["x"]), str(row["z"])])df = pd.DataFrame(dict(x=[1,2,3],y=["foo","bar","bro"],z=[-99,1.04,213])) Out[600]:x y z 0 1 foo -99.00 1 2 bar 1....

python-尝试使用datetime64对象的Pandas系列检查数据频率【代码】

我有一些时间序列数据,可以是1Hz,10Hz或100Hz.我加载的文件恰好是1Hz:In [6]: data = pd.read_csv("ftp.csv")In [7]: data.Time Out[7]: 0 NaN 1 11:30:08 AM 2 11:30:09 AM 3 11:30:10 AM 4 11:30:11 AM 5 11:30:12 AM 6 11:30:13 AM我将其转换为datetime:In [8]: time = pd.to_datetime(data.Time)In [9]: time Out[9]: 0 NaT 1 2015-03-03 11:30:08 2 2015-0...

python-如何检查几个pandas DataFrame.Series元素的条件并将结果应用于新列?【代码】

我有一个pandas.Dataframe.df = pandas.DataFrame([(11,12,13),(1,3,5),(1,1,2)], columns=['a','b','c'])a b c 0 11 12 13 1 1 3 5 2 3 1 2我想创建一个名为d的第四列,它告诉我一行中的每个元素是否大于10.在这个示例中,它看起来像这样.a b c d 0 11 12 13 True 1 1 3 5 False 2 3 1 2 False我试过了,这给了我TypeError.x = df['a'] y = df['b'] z = df['c'] df['d'] = df.apply(...

Python Pandas-两行标头【代码】

使用用于Python的pandas库,我正在读取csv,然后将结果与总和分组.grouped = df[['Organization Name','Views']].groupby('Organization Name').sum().sort(columns='Views',ascending=False).head(10) #Bar Chart Section print grouped.to_string()不幸的是,我得到该表的以下结果:Views Organization Name Test1 112 Test2 114 Test3 ...

在Python3 Pandas中读取/导入CSV文件时出现编码问题【代码】

我正在尝试使用熊猫读取电影镜头数据集:http://files.grouplens.org/datasets/movielens/ml-100k/. 我正在使用Python 3.4版,并且正在按照“ http://www.gregreda.com/2013/10/26/using-pandas-on-the-movielens-dataset/”中给出的教程进行操作. 当我尝试使用此处提到的代码读取u.item数据时:# the movies file contains columns indicating the movie's genres # let's only load the first five columns of the file with usec...

在Pandas Python中理解数据框以创建新的数据框【代码】

我对Pandas来说还很陌生,但是我想根据名称是Mel的条件,从另一个数据库创建一个数据框.看来我的新数据框只是唯一的旧指针(基于打印出来的索引号). 我本质上是在寻找与之等效的东西:BabyDataSet = [['Bob', 968], ['Jessica', 155], ['Mary', 77], ['John', 578], ['Mel', 973]] filtered_list = [x for x in BabyDataSet if x[0] == 'Mel'] print filtered_list df = pd.DataFrame(data=filtered_list, columns=['Names', 'Births'...