【python – 合并pandas数据帧,其中一个值介于两个其他值之间】教程文章相关的互联网学习教程文章

python – 如何在Pandas中使用apply来并行化许多(模糊)字符串比较?【代码】

我有以下问题 我有一个包含句子的数据框主文件,例如master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflow is nice对于Master中的每一行,我使用fuzzywuzzy查找另一个Dataframe slave以获得最佳匹配.我使用fuzzywuzzy,因为两个数据帧之间的匹配句子可能有点不同(额外的字符等). 例如,奴隶可能是slave Out[10]: my_value name 0 2 hello w...

python – pandas:选择名称以X开头的所有列的最佳方法【代码】

我有一个DataFrame:import pandas as pd import numpy as npdf = pd.DataFrame({'foo.aa': [1, 2.1, np.nan, 4.7, 5.6, 6.8],'foo.fighters': [0, 1, np.nan, 0, 0, 0],'foo.bars': [0, 0, 0, 0, 0, 1],'bar.baz': [5, 5, 6, 5, 5.6, 6.8],'foo.fox': [2, 4, 1, 0, 0, 5],'nas.foo': ['NA', 0, 1, 0, 0, 0],'foo.manchu': ['NA', 0, 0, 0, 0, 0],})我想在以foo开头的列中选择值为1.除了以下情况之外,还有更好的方法吗?df2 = df[(...

python – 在读取csv时删除pandas中的索引列【代码】

我有以下代码导入CSV文件.有3列,我想将前两个设置为变量.当我将第二列设置为变量“效率”时,索引列也会被添加.我怎样才能摆脱索引列?df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = df.index efficiency = df.Efficiency print efficiency我试过用del df['index']在我设定之后energy = df.index我在另一篇文章中找到但导致“KeyError:’index’”解决方法:DataFrames和Series始终具有...

如何在Pandas数据帧(python)中查找哪些列包含任何NaN值【代码】

给定一个包含可能的NaN值的pandas数据帧,这些值分散在这里和那里: 问题:如何确定哪些列包含NaN值?特别是,我可以获得包含NaN的列名列表吗?解决方法:更新:使用Pandas 0.22.0 较新的Pandas版本有新方法‘DataFrame.isna()’和‘DataFrame.notna()’In [71]: df Out[71]:a b c 0 NaN 7.0 0 1 0.0 NaN 4 2 2.0 NaN 4 3 1.0 7.0 0 4 1.0 3.0 9 5 7.0 4.0 9 6 2.0 6.0 9 7 9.0 6.0 4 8 3.0 0.0 9 9 ...

python – 从pandas 中的数据框中的所有列输出数据【代码】

参见英文答案 > How do I expand the output display to see more columns? 14个我有一个名为params.csv的csv文件.我打开了ipython qtconsole并使用以下方法创建了一个pandas数据帧:import pandas paramdata = pandas.read_csv('params.csv', names=paramnames)其中,paramnames是一个字符串对象的python列表. paramnames示例(实际列表的长度为22):paramnames = ["id", "fc", "mc", "markup",...

如何在pandas / python中查看excel电子表格的公式?【代码】

我想在excel电子表格中读到python / pandas,但是有公式而不是单元格结果. 例如,如果单元格A1为25,单元格B1为= A1,我希望我的数据框显示:25 =A1现在它显示:25 25我怎么能这样做?解决方法:OpenPyXL提供了开箱即用的容量.见here和here.一个例子:from openpyxl import load_workbook import pandas as pd wb = load_workbook(filename = 'empty_book.xlsx') sheet_names = wb.get_sheet_names() name = sheet_names[0] sheet...

python – 迭代pandas数据帧,检查值并创建其中一些【代码】

好的,我有一个(大)数据帧,如下所示:date time value 0 20100201 0 1 1 20100201 6 2 2 20100201 12 3 3 20100201 18 4 4 20100202 0 5 5 20100202 6 6 6 20100202 12 7 7 20100202 18 8 8 20100203 0 9 9 20100203 18...

5种方式教你用Python(pandas)数据方法总结!【代码】【图】

前言: 今天为大家带来的内容是5种方式教你用Python(pandas)数据方法总结!觉得有用或者喜欢的话,不忘关注收藏才不会迷路哦! 提示:Pandas是python的一个数据分析包,提供了大量的快速便捷处理数据的函数和方法。 在数据分析中不可避免的涉及到对数据的遍历查询和处理,比如我们需要将dataframe两列数据两两相除,并将结果存储于一个新的列表中。本文通过该例程介绍对pandas数据遍历的几种方法。 for..in循环迭代方式 for语句是...

python – 从pandas中的datetime列减去一年【代码】

我有一个datetime列如下 – >>> df['ACC_DATE'].head(2) 538 2006-04-07 550 2006-04-12 Name: ACC_DATE, dtype: datetime64[ns]现在,我想从本专栏的每一行中减去一年.我怎样才能实现同样的目标我可以使用哪个库? 预期的领域 – ACC_DATE NEW_DATE 538 2006-04-07 2005-04-07 549 2006-04-12 2005-04-12谢谢.解决方法:您可以使用DateOffset来实现此目的:In [15]: df['NEW_DATE'] = df['ACC_DATE'].apply(lambda...

python – Pandas – 关于apply函数缓慢的解释【代码】

对于大型数据帧(约1~3百万行),应用函数似乎工作得非常慢. 我在这里检查了相关的问题,比如Speed up Pandas apply function和Counting within pandas apply() function,似乎加速它的最好方法是不使用apply函数:) 对于我的情况,我有两种与apply函数有关的任务. 第一:应用查找字典查询f(p_id, p_dict):return p_dict[p_dict['ID'] == p_id]['value']p_dict = DataFrame(...) # it's another dict works like lookup table df = df.ap...

python – 在Pandas中反转’one-hot’编码【代码】

问题陈述我想从这个基本上是热编码的数据帧开始.In [2]: pd.DataFrame({"monkey":[0,1,0],"rabbit":[1,0,0],"fox":[0,0,1]})Out[2]:fox monkey rabbit0 0 0 11 0 1 02 1 0 03 0 0 04 0 0 0对于这个“反向”单热编码的那个.In [3]: pd.DataFrame({"animal":["monkey","rabbit","fox"]})Out[3]:animal0 monkey1 rabbit2 fox我想有一些聪明的使用...

python – 如何做pandas中的“侧视图爆炸()”[复制]【代码】

参见英文答案 > How to unnest (explode) a column in a pandas DataFrame? 11个我想做这个 :# input:A B 0 [1, 2] 10 1 [5, 6] -20 # output:A B 0 1 10 1 2 10 2 5 -20 3 6 -20每列A的值都是一个列表df = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]}) df = pd.DataFrame([[item]+list(df.loc[line,'B':]) for line in df.index for item in df.loc[line,'A']],columns=df....

使用python pandas将hh:mm:ss转换为分钟【代码】

我有一个数据帧列,数据[‘time time’];02:08:00 02:05:00 02:55:00 03:42:00 01:12:00 01:46:00 03:22:00 03:36:00如何以分钟的形式获得输出,如下所示?128 125 175 222 72 106 202 216解决方法:您可以尝试将其转换为DatetimeIndexIn [58]: time = pd.DatetimeIndex(df['time taken'])In [59]: time.hour * 60 + time.minute Out[59]: array([128, 125, 175, 222, 72, 106, 202, 216], dtype=int32)

python – 从Dataframe Pandas中的句子计算最常见的100个单词【代码】

我在Pandas数据帧的一列中进行了文本评论,我想用频率计数计算N个最频繁的单词(在整列中 – 不在单个单元格中).一种方法是通过迭代每一行来使用计数器计数单词.还有更好的选择吗? 代表性数据.0 a heartening tale of small victories and endu 1 no sophomore slump for director sam mendes w 2 if you are an actor who can relate to the sea 3 it's this memory-as-identity obviation that g 4 boyd's screen...

python – 将2列中的值合并为pandas数据帧中的单个列【代码】

我正在寻找一种行为类似于在T-SQL中合并的方法.我有两列(A列和B列)在pandas数据帧中稀疏填充.我想使用以下规则创建一个新列: >如果A列中的值不为null,请将该值用于新列C>如果A列中的值为null,请使用B列中的值作为新列C 就像我提到的,这可以通过coalesce函数在MS SQL Server中完成.我还没有找到一个好的pythonic方法;一个存在吗?解决方法:使用combine_first():In [16]: df = pd.DataFrame(np.random.randint(0, 10, size=(10, 2)...