【python – 从索引列表到单热矩阵】教程文章相关的互联网学习教程文章

python-熊猫中的分层/多索引操作【代码】

假设我有一个如下所示的多索引数据框:A B C X Y bar one -0.007381 -0.365315 -0.024817two -1.219794 0.370955 -0.795125 baz one 0.145578 1.428502 -0.408384two -0.249321 -0.292967 -1.849202three -0.249321 -0.292967 -1.849202four 0.21 -0.967123 1.202234 foo one -1.046479 -1.250595 0.781722two 1.314373 0.333150 0.1...

python-Scrapy-获取正在解析的项目的索引?【代码】

我正在尝试使用Scrapy从数据库加载一些XPATH规则. 到目前为止,我编写的代码运行良好,但是经过一些调试后,我意识到Scrapy正在异步解析每个项目,这意味着我无法控制要解析哪个项目的顺序. 我想做的是找出命中parse()函数的列表中当前正在解析的项,因此我可以将该索引引用到数据库中的行并获取正确的XPATH查询.我目前这样做的方式是使用一个名为item_index的变量,并在每次项目迭代后将其递增.现在我意识到这还不够,我希望有一些内部功...

python-在numpy中创建索引数组-消除double for循环【代码】

我有一些物理仿真代码,使用python和numpy / scipy编写.对代码进行性能分析表明,38%的CPU时间都花在了一个双重嵌套的for循环中-这似乎过多,因此我一直在尝试减少它. 循环的目标是创建一个索引数组,以显示2D数组的元素等于1D数组的哪些元素.indices[i,j] = where(1D_array == 2D_array[i,j])例如,如果1D_array = [7.2,2.5,3.9]且2D_array = [[7.2, 2.5] [3.9, 7.2]]我们本应该indices = [[0, 1][2, 0]]我目前已实现为for i in range...

python-如何通过切片范围有效地索引到一维numpy数组【代码】

我有一个很大的一维数据数组.在发生重要事件的地方,我有一个指向数据的索引的开始数组.我想得到一个范围数组,以便得到长度为L的窗口,开始时每个起点都一个.伪造的样本数据:data = np.linspace(0,10,50) starts = np.array([0,10,21]) length = 5我想本能地做类似的事情data[starts:starts+length]但是,实际上,我需要将范围“窗口”的二维数组开始.来自功能语言,我认为它是从列表到列表列表的映射,例如:np.apply_along_axis(lambd...

python-将索引转换为Numpy中的向量【代码】

假设我们有以下数据:import numpy as np data = np.array([1,0,1,2,1,2])我想将其转换为此:[0 1 01 0 00 1 00 0 10 1 00 0 1]如何在Numpy(或其他相关程序包)中执行此操作?我们在MATLAB中有ind2vec函数来执行此操作.解决方法:在NumPy中执行此操作的一种相当普遍的方法是将数据与arange比较并将布尔数组转换为整数类型:>>> (np.arange(3) == data[:,None]).astype(int) array([[0, 1, 0],[1, 0, 0],[0, 1, 0],[0, 0, 1],[0, 1, 0...

Python Pandas与另一个数据框的最接近索引匹配【代码】

df.index = 10,100,1000df2.index = 1,2,11,50,101,500,1001 Just sample我需要通过这些条件匹配df2与df的最接近索引 > df2.index必须> df.index>只有一个最接近的值 例如输出df | df2 10 | 11 100 | 101 1000 | 1001现在我可以使用for循环了,它非常慢 我用new_df2来保留索引,而不是df2new_df2 = pd.DataFrame(columns = ["value"]) for col in df.index:for col2 in df2.index:if(col2 > col):new_df2.loc[c...

python-熊猫使用日期作为索引加入/合并2个数据框【代码】

我有2个以日期为索引的大数据框.为了简单地举一个例子,我们假设它们看起来像这样(第一个数据帧中特定日期的数据数量与第二个数据帧中的数据数量不同): df1:Date X Y 2000-01-01 x1 y1 2000-01-01 x2 y2 2000-01-02 x3 y3 2000-01-03 x4 y4 2000-01-03 x5 y5 2000-01-03 x6 y6df2:Date X_2 Y_2 2000-01-01 X1 Y1 2000-01-01 X2 Y2 2000-01-01 X3 Y3 2000-01-03 X4 Y4 2000-01-0...

python-熊猫:每个组的最大值索引【代码】

我的Pandas DataFrame df如下所示:parameter1 parameter2 value1 1 0.12 0.22 1 0.62 0.3value是另一个DataFrame上groupby([‘parameter1′,’parameter2’]).mean()的结果.现在,我可以使用以下命令找到每个parameter1的值的最大值df.max(level='parameter1')但是,我需要为该最大值找到parameter2的对应值.似乎df.idxmax()不支持level =,那么我该怎么做呢...

python-对Pandas DataFrame使用逻辑索引或布尔索引的正确语法是什么?【代码】

我要使用逻辑索引来修改Pandas DataFrame(版本0.15.2)中的值,如本post所述.我一直收到以下警告:A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value insteadSee the the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copyself.obj[item_labels[indexer[info_axis]]] = value这是一个示例进...

python-从反向索引Elasticsearch中按高频术语的顺序对字符串进行排序【代码】

我是Elasticsearch的新手,我想知道是否可以这样做: 我有一堆地址字符串,我想按字符串中最重复的术语进行排序. 例如:1. Shop no 1 ABC Lane City1 - Zipcode1 2. Shop no 2 EFG Lane City1 - Zipcode2 3. Shop no 1 XYZ Lane City2 - Zipcode3 4. Shop no 3 ABC Lane City1 - Zipcode1我真正需要的是将它们按照字符串中最常见的术语组合在一起. 因此,对于先前的示例,排序后的输出应该是:1. Shop no 1 ABC Lane City1 - Zipcode1 ...

python-如何广播具有不同索引的熊猫系列?【代码】

我有两个熊猫系列,每个都有不同的索引:In [2]: a = pd.Series(range(5), index=pd.Index(list('abcde'), name='index')) In [3]: b = pd.Series(range(4), index=pd.Index(list('ABCD'), name='BIG_INDEX'))我想做的是沿着a.mul(b,axis = 1)的指令来指示大熊猫在执行ufunc之前沿1轴广播b(例如乘以,提高n的幂等).有比使用Apply更好的方法吗?In [4]: a.apply(lambda x: x*b) Out[4]: BIG_INDEX A B C D index a 0 0...

python-分割线索引【代码】

我有一个输入文件:....... ....... # Start A 2 100 B 3 200 C 4 1000 # End ........ ........我想将第2列打印为:2 3 4 我的代码是:with open("my_file.txt") as f: parsing=False for line in f: if line.startswith("# Start"): parsing = True elif line.startswith("# End"): parsing = False if parsing: line = line.split() if line: print line[1] 但是,我得到一个输出错误print line[1] ...

python-熊猫获取最高点积的索引【代码】

我有一个这样的数据框:df1 = pd.DataFrame({'a':[1,2,3,4],'b':[5,6,7,8],'c':[9,10,11,12]})a b c 0 1 5 9 1 2 6 10 2 3 7 11 3 4 8 12我想在此数据框中创建另一列,该列存储每一行??,当对它进行点积运算时,该另一行得分最高. 例如,对于第一行,我们将针对其他行计算点积:df1.drop(0).dot(df1.loc[0]).idxmax() output: 3因此,我可以创建一个函数:def get_highest(dataframe):lis = []for row in da...

python-熊猫read_csv usecols相同的索引【代码】

考虑以下代码:import pandas as pd from StringIO import StringIO x=''' a,b,c,d 1,2,3,4 5,6,7,8 9,10,11,12 13,14,15,16 17,18,19,20 '''df = pd.read_csv(StringIO(x), skipinitialspace=True, usecols=[2,3,2]) print df输出:c d 0 3 4 1 7 8 2 11 12 3 15 16 4 19 20我有什么办法c d c 0 3 4 3 1 7 8 7 2 11 12 11 3 15 16 15 4 19 20 19解决方法:您可以使用iloc[]索引...

python-如何在N张量(ndarray)中选择收缩2个索引【代码】

我有一个2 ^ L x 2 ^ L矩阵,然后通过重塑命令将其转换为等级2L的张量,每个轴具有2个元素.例如,对于L = 2,它将是:Z = np.asarray([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]) X = np.reshape(Z,[2,2,2,2])我尝试使用np.einsum通过交换轴求和,例如L和2L索引.但这会使索引顺序混乱,因此进一步收缩将非常困难,因此我真的在如何执行这种收缩方面苦苦挣扎.解决方法:我假设您是在“广义跟踪”意义上指的是张量收缩,所以让我们看...