【python – 为什么pandas.DataFrame.update会更改更新数据帧的dtypes?】教程文章相关的互联网学习教程文章

python – 关于坏数据的Pandas dataframe read_csv【代码】

我想读一个非常大的csv(不能在excel中打开并且很容易编辑)但是在第100,000行的某个地方,有一行有一个额外的列导致程序崩溃.这行是错误的,所以我需要一种方法来忽略它是一个额外的列的事实.有大约50列,所以硬编码标题和使用名称或usecols是不可取的.我也可能在其他csv中遇到这个问题,并且想要一个通用的解决方案.遗憾的是,我在read_csv中找不到任何内容.代码就像这样简单:def loadCSV(filePath):dataframe = pd.read_csv(filePath,...

python – ValueError:值的长度与索引的长度不匹配Pandas DataFrame.unique()【代码】

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值.这是我想要得到的一个例子:A B----- 0| 1 1 1| 2 5 2| 1 5 3| 7 9 4| 7 9 5| 8 9Wanted Result Not Wanted ResultA B A B----- -----0| 1 1 0| 1 11| 2 5 1| 2 52| 7 9 2| 3| 8 3| 7 94|5| 8我真的不关心索引,但似乎是问题所在.到目前为止,我的代码非常简单,我尝试了两种方法,一种是使用新的dataFrame而另一...

python – pandas dataframe view vs copy,我怎么说?【代码】

有什么区别: pandas df.loc [:,(‘col_a’,’col_b’)] 和 df.loc [:,[ ‘为col_a’, ‘col_b’]] 下面的链接没有提到后者,虽然它有效.拉两个视图?首先是拉视图而第二个是拉副本吗?喜欢学习熊猫. http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy 谢谢解决方法:如果您的DataFrame有一个简单的列索引,那么没有区别.例如,In [8]: df = pd.DataFrame(np.arange(12).reshape(4,3), columns=...

Zeppelin:Scala Dataframe to python【代码】

如果我有一个带有DataFrame的Scala段落,我可以与python共享和使用它. (据我所知,pyspark使用py4j) 我试过这个: 斯卡拉段落:x.printSchema z.put("xtable", x )Python段落:%pysparkimport numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as snsthe_data = z.get("xtable")print the_datasns.set() g = sns.PairGrid(data=the_data,x_vars=dependent_var,y_vars=sensor_measure_columns_names +...

python – 在Pandas DataFrame中将无效值替换为None【代码】

是否有任何方法可以在Python中的Pandas中用None替换值? 你可以使用df.replace(‘pre’,’post’)并且可以用另一个值替换一个值,但是如果要替换为None值,则无法执行此操作,如果尝试,则会得到奇怪的结果. 所以这是一个例子:df = DataFrame(['-',3,2,5,1,-5,-1,'-',9]) df.replace('-', 0)返回成功的结果. 但,df.replace('-', None)返回以下结果:0 0 - // this isn't replaced 1 3 2 2 3 5 4 1 5 -5 6 -1 7 -1 // thi...

python pandas dataframe,是值传递还是传递引用【代码】

如果我将数据帧传递给函数并在函数内修改它,它是按值传递还是按引用传递? 我运行以下代码a = pd.DataFrame({'a':[1,2], 'b':[3,4]}) def letgo(df):df = df.drop('b',axis=1) letgo(a)函数调用后a的值不会改变.这是否意味着它是传值? 我也试过以下xx = np.array([[1,2], [3,4]]) def letgo2(x):x[1,1] = 100 def letgo3(x):x = np.array([[3,3],[3,3]])事实证明,letgo2()确实改变了xx而letgo3()却没有改变.为什么会这样?解决方法...

python – 将pandas DataFrame转换为列表列表【代码】

我有一个像这样的pandas数据框:admit gpa gre rank 0 3.61 380 3 1 3.67 660 3 1 3.19 640 4 0 2.93 520 4现在我想获得pandas中的行列表,如:[[0,3.61,380,3], [1,3.67,660,3], [1,3.19,640,4], [0,2.93,520,4]] 我该怎么做?解决方法:有一个内置的方法也是最快的方法,在.values np数组上调用tolist:df.values.tolist()[[0.0, 3.61, 380.0, 3.0],[1.0, 3.67, 660.0, 3.0],[1.0, 3.19, 64...

python – 在Pandas DataFrame中反转列顺序的大O复杂性是什么?【代码】

所以假设我在pandas中有一个带有m行和n列的DataFrame.我们还要说我想颠倒列的顺序,可以使用以下代码完成:df_reversed = df[df.columns[::-1]]这项行动的大O复杂性是什么?我假设这将取决于列数,但它还取决于行数?解决方法:我不知道熊猫是如何实现这一点的,但我确实根据经验进行了测试.我运行以下代码(在Jupyter笔记本中)来测试操作的速度:def get_dummy_df(n):return pd.DataFrame({'a': [1,2]*n, 'b': [4,5]*n, 'c': [7,8]*n})...

python – Pandas Dataframe:用行平均值替换NaN【代码】

我正在努力学习大熊猫,但我对以下内容感到困惑.我想替换NaNs是一个具有行平均值的数据帧.因此像df.fillna(df.mean(axis = 1))这样的东西应该可以工作,但由于某种原因它不适合我.我错过了什么,我做错了什么?是因为它没有实施;见link hereimport pandas as pd import numpy as np ? pd.__version__ Out[44]: '0.15.2'In [45]: df = pd.DataFrame() df['c1'] = [1, 2, 3] df['c2'] = [4, 5, 6] df['c3'] = [7, np.nan, 9] dfOut[45]:...

Python – 如何将JSON文件转换为Dataframe【代码】

如何将JSON文件转换为数据帧以进行一些转换. 例如,如果JSON文件读取:{"FirstName":"John","LastName":"Mark","MiddleName":"Lewis","username":"johnlewis2","password":"2910"}我怎样才能将它转换成这样的表格Column -> FirstName | LastName | MiddleName | username | passwordRow -----> John | Mark |Lewis | johnlewis2 |2910解决方法:从字典对象创建数据框.import pandas as pd data = [{'name': 'vikash', 'age': 27},...

python Pandas DataFrame copy(deep = False)vs copy(deep = True)vs’=’【代码】

有人可以向我解释一下之间的区别df2 = df1df2 = df1.copy()df3 = df1.copy(deep=False)我已经尝试了所有选项,并按如下方式执行:df1 = pd.DataFrame([1,2,3,4,5]) df2 = df1 df3 = df1.copy() df4 = df1.copy(deep=False) df1 = pd.DataFrame([9,9,9])并返回如下:df1: [9,9,9] df2: [1,2,3,4,5] df3: [1,2,3,4,5] df4: [1,2,3,4,5]所以,我发现.copy()和.copy(deep = False)之间的输出没有区别.为什么? 我希望其中一个选项’=’,c...

python – 填写MultiIndex Pandas Dataframe中的日期空白【代码】

我想修改一个pandas MultiIndex DataFrame,使每个索引组包含指定范围之间的日期.我希望每个小组用值0(或NaN)填写2013-06-11到2013-12-31的缺失日期.Group A, Group B, Date, Value loc_a group_a 2013-06-11 222013-07-02 352013-07-09 142013-07-30 92013-08-06 42013-09-03 402013-10-01 18group_b 2013-07-09 42013-08-06 22013-09-03 5group_c 2013-0...

python – 从Dataframe Pandas中的句子计算最常见的100个单词【代码】

我在Pandas数据帧的一列中进行了文本评论,我想用频率计数计算N个最频繁的单词(在整列中 – 不在单个单元格中).一种方法是通过迭代每一行来使用计数器计数单词.还有更好的选择吗? 代表性数据.0 a heartening tale of small victories and endu 1 no sophomore slump for director sam mendes w 2 if you are an actor who can relate to the sea 3 it's this memory-as-identity obviation that g 4 boyd's screen...

python – 要列出的Pandas DataFrame列【代码】

参见英文答案 > How do I convert a pandas Series or index to a Numpy array? 7个> get list from pandas dataframe column 6个我根据满足的另一列中的条件从列中提取数据的子集. 我可以返回正确的值,但它位于pandas.core.frame.DataFrame中.如何将其转换为列表?import pandas as pdtst = pd.read_csv('C:\\SomeCSV.csv')lookupValue = tst[...

python – 查找月末Pandas DataFrame系列【代码】

我在DataFrame中有一个系列,我最初将其作为对象读取,然后需要将其转换为yyyy-mm-dd形式的日期,其中dd是月末. 作为一个例子,我有DataFrame df,其中Date作为对象列:... Date ... ... 200104 ... ... 200508 ...当这一切都说完了,我想要的是一个日期对象:... Date ... ... 2001-04-30 ... ... 2005-08-31 ...这样df [‘Date’].item()返回datetime.date(2001, 04, 30)我已经使用以下代码几乎到了那...