【python – 获取排序的numpy矩阵或pandas数据帧的最后一个非nan索引】教程文章相关的互联网学习教程文章

Python Pandas计算特定值的出现次数【代码】

我试图找到某个值出现在一列中的次数. 我用data = pd.DataFrame.from_csv(‘data / DataSet2.csv’)制作了数据帧 现在我想找到某个列出现的次数.这是怎么做到的? 我以为是下面的,我在教育栏目中查看并计算时间?发生. 下面的代码显示我试图找到第9次出现的次数,错误是我运行代码时得到的 码missing2 = df.education.value_counts()['9th'] print(missing2)错误KeyError: '9th'解决方法:您可以根据条件创建数据子集,然后使用shape或...

python – 从Pandas数据框填充QTableView的最快方法【代码】

我对PyQt很新,我正在努力填充QTableView控件. 我的代码如下:def data_frame_to_ui(self, data_frame):"""Displays a pandas data frame into the GUI"""list_model = QtGui.QStandardItemModel()i = 0for val in data_frame.columns:# for the list modelif i > 0:item = QtGui.QStandardItem(val)#item.setCheckable(True)item.setEditable(False)list_model.appendRow(item)i += 1self.ui.profilesListView.setModel(list_model...

python – Pandas Groupby和Sum Only One Column【代码】

所以我有一个数据帧df1,如下所示:A B C 1 foo 12 California 2 foo 22 California 3 bar 8 Rhode Island 4 bar 32 Rhode Island 5 baz 15 Ohio 6 baz 26 Ohio我希望按列A进行分组,然后将列B加起来,同时保持列C中的值.这样的事情:A B C 1 foo 34 California 2 bar 40 Rhode Island 3 baz 41 Ohio问题是,当我说...

python – Pandas在多列上留下外连接多个数据帧【代码】

我是使用DataFrame的新手,我想知道如何在一系列表的多个列上执行左外连接的SQL等价物 例:df1: Year Week Colour Val1 2014 A Red 50 2014 B Red 60 2014 B Black 70 2014 C Red 10 2014 D Green 20df2: Year Week Colour Val2 2014 A Black 30 2014 B Black 100 2014 C Green ...

python – 使用df.drop删除行的Pandas不起作用【代码】

我有一个这样的DataFrame(第一列是索引(786 …)和第二天(25 …),Rainfall数量是空的):Day Rainfall amount (millimetres) 786 25 787 26 788 27 789 28 790 29 791 1 792 2 793 3 ...

python – 使用pandas进行基于NLTK的文本处理【代码】

使用nltk时,标点符号和数字小写不起作用. 我的代码stopwords=nltk.corpus.stopwords.words('english')+ list(string.punctuation) user_defined_stop_words=['st','rd','hong','kong'] new_stop_words=stopwords+user_defined_stop_wordsdef preprocess(text):return [word for word in word_tokenize(text) if word.lower() not in new_stop_words and not word.isdigit()]miss_data['Clean_addr'] = miss_da...

python – 为什么我的Pandas DataFrame不使用`sort_values`显示新订单?【代码】

熊猫新手,也许我错过了一个大创意?我有一个Pandas DataFrame的寄存器事务,形状像(500,4):Time datetime64[ns] Net Total float64 Tax float64 Total Due float64我正在使用Python3 Jupyter笔记本中的代码.我无法通过排序任何列.通过不同的代码示例进行排序,我在检查df时没有看到输出重新排序.所以,我把问题简化为尝试只订购一列:df.sort_values(by='Time') # ...

python – 在Pandas DataFrame中推断值【代码】

在Pandas DataFrame中插入NaN单元非常容易:In [98]: df Out[98]:neg neu pos avg 250 0.508475 0.527027 0.641292 0.558931 500 NaN NaN NaN NaN 1000 0.650000 0.571429 0.653983 0.625137 2000 NaN NaN NaN NaN 3000 0.619718 0.663158 0.665468 0.649448 4000 NaN NaN NaN NaN 6000 NaN NaN ...

python – 使用大型csv的pandas结构(迭代和chunksize)【代码】

我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只想正常阅读它:df = pd.read_csv('Check400_900.csv', sep='\t')不起作用所以我发现迭代和chunksize在类似的帖子,所以我用df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)一切都很好,我可以打印df.get_chunk(5)并用刚搜索整个文件for chunk in df:print chunk我的问题是我不知道如何在整个df中使用下面这些...

python – 从pandas DataFrame制作热图【代码】

我有一个从Python的Pandas包生成的数据帧.如何使用pandas包中的DataFrame生成热图.import numpy as np from pandas import *Index= ['aaa','bbb','ccc','ddd','eee'] Cols = ['A', 'B', 'C','D'] df = DataFrame(abs(np.random.randn(5, 4)), index= Index, columns=Cols)>>> dfA B C D aaa 2.431645 1.248688 0.267648 0.613826 bbb 0.809296 1.671020 1.564420 0.347662 ccc 1.501939 1.1265...

从python pandas中的列名获取列索引【代码】

在R中,当您需要根据您可以执行的列的名称检索列索引时idx <- which(names(my_data)==my_colum_name)有没有办法对pandas数据帧做同样的事情?解决方法:当然,你可以使用.get_loc():In [45]: df = DataFrame({"pear": [1,2,3], "apple": [2,3,4], "orange": [3,4,5]})In [46]: df.columns Out[46]: Index([apple, orange, pear], dtype=object)In [47]: df.columns.get_loc("pear") Out[47]: 2虽然说实话,我自己并不经常需要这个.通常...

使用styles和css更改pandas dataframe html表python中的文本颜色【代码】

我有一个pandas数据帧:arrays = [['Midland', 'Midland', 'Hereford', 'Hereford', 'Hobbs','Hobbs', 'Childress','Childress', 'Reese', 'Reese', 'San Angelo', 'San Angelo'],['WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS']] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples) df = pd.DataFrame(np.random.randn(12, 4), index=arrays,columns=['00 UTC', '06 UTC', '12 ...

如何在pandas python中将字符串转换为日期时间格式?【代码】

我在名为train的数据帧中有一个类型为string(object)的列I_DATE,如下所示.I_DATE 28-03-2012 2:15:00 PM 28-03-2012 2:17:28 PM 28-03-2012 2:50:50 PM如何将I_DATE从字符串转换为数据时格式&指定输入字符串的格式.我看到了一些答案,但它不适用于AM / PM格式. 另外,如何根据pandas中的日期范围过滤行?解决方法:使用to_datetime,不需要格式字符串,解析器是男人/女人足以处理它:In [51]: pd.to_datetime(df['I_DATE'])Out[51]: ...

用于计算pandas dataframe列中列表长度的Pythonic方法【代码】

我有这样的数据帧:CreationDate 2013-12-22 15:25:02 [ubuntu, mac-osx, syslinux] 2009-12-14 14:29:32 [ubuntu, mod-rewrite, laconica, apache-2.2] 2013-12-22 15:42:00 [ubuntu, nat, squid, mikrotik]我是CreationDate列中列表的计算长度,并创建一个新的长度列,如下所示:df['Length'] = df.CreationDate.apply(lambda x: len(x))这给了我这个:CreationDate Length 2013-12-22 15:25:02 ...

python – 如何在切割其DataFrame后更新pandas MultiIndex的级别?【代码】

我有一个带有pandas MultiIndex的Dataframe:In [1]: import pandas as pd In [2]: multi_index = pd.MultiIndex.from_product([['CAN','USA'],['total']],names=['country','sex']) In [3]: df = pd.DataFrame({'pop':[35,318]},index=multi_index) In [4]: df Out[4]:pop country sex CAN total 35 USA total 318然后我从该DataFrame中删除一些行:In [5]: df = df.query('pop > 100')In [6]: df Out[6]:pop country ...