【python – 复制一些行并更改pandas中的某些值】教程文章相关的互联网学习教程文章

python-在列表中找到一个数字,该数字和列表都存储在pandas单元格中【代码】

df = DataFrame({'Number': (1, 3, 4, 5), 'Lists': ([1], [3, 4, 5], [6, 7], [8])})我想创建另一列“ Isin”,如果每行的“列表”字段中为“数字”,则将其设置为1,即"Isin"1100我已经尝试了很多基于df [‘Number’].isin(df [‘Lists’])的事情,但是没有任何运气!它以不可散列的类型失败:“列表”解决方法:您可以使用apply()函数遍历行,并检查Number是否在逐行列出中:df["Isin"] = df.apply(lambda r: int(r.Number in r.Lists...

python-在轴1上具有布尔数组的Pandas loc()方法【代码】

我正在尝试使用boolean数组作为参数的Pandas loc()方法. 我创建了一个小数据框来玩:col1 col2 col3 col40 a 1 2 31 b NaN NaN 62 c NaN 8 93 d NaN 11 124 e 13 14 155 f 17 18 196 g 21 2 2 23还有一个在轴1上使用的布尔数组,以子集许多列:a1 = pd.Series([True, False, True, False])...

python-Pandas中的Where()方法与其他Pd.Series【代码】

我正在尝试在熊猫中使用where()方法.我在文档页面上运行了一个简单的示例,其他示例是pd.Series,但我得到了NaN,我无法解释: 示例数据框为:df = pd.DataFrame(np.arange(10).reshape(-1, 2), columns=['A', 'B'])where()子句是:m = df % 3 == 0 n = pd.Series([100, 200]) df.where(m, n, axis = 1)该方法返回以下数据帧:A B 0 0.0 NaN 1 NaN 3.0 2 NaN NaN 3 6.0 NaN 4 NaN 9.0我期望看到A中为100,B中为200,而不是N...

Python Pandas:基于其他两个列的值查找列的总和【代码】

在遍历variableA列时,我想生成一个新列,当variableA或variableB中的行等于variableA的当前行值时,该列就是值的总和.示例数据:values variableA variableB0 134 1 31 12 2 62 43 1 23 54 3 14 16 2 7每当变量A与变量A的当前行匹配时,我可以使用以下方法选择值的总和:df.groupby('variableA')['values'].transform('sum'...

如何在python pandas的同一列上进行分组并取唯一计数和某个值计数作为聚合?【代码】

我的问题与我以前的Question有关,但有所不同.所以我在问新问题. 在上面的问题中,请参阅@jezrael的答案.df = pd.DataFrame({'col1':[1,1,1],'col2':[4,4,6],'col3':[7,7,9],'col4':[3,3,5]})print (df)col1 col2 col3 col4 0 1 4 7 3 1 1 4 7 3 2 1 6 9 5df1 = df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'}) df1['result_col'] = df1['col3'].div(df1['c...

从python嵌套列表在pandas中创建新列【代码】

我有一个熊猫数据框.列之一具有嵌套列表.我想从嵌套列表中创建新列 例:L = [[1,2,4],[5,6,7,8],[9,3,5]]我希望将嵌套列表中的所有元素都作为列.如果列表包含元素,则值应为1,否则为0.1 2 4 5 6 7 8 9 3 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 1 0 0 0 1 1解决方法:您可以尝试以下方法:df = pd.DataFrame({"A": L})df # A #0 [1, 2, 4] #1 [5, 6, 7, 8] #2 [9, 3, 5]# for each cell, use `pd.Series(1, x)` to c...

Python Pandas子集十六进制字符串,转换为十进制【代码】

我有一个数据框. B列包含4个字符的十六进制值:dict = {'A': ['foo', 'bar', 'baz'], 'B': ['1346', '0f46', '5a46']} df = pd.DataFrame(dict)我只对B列中十六进制的前两个字符感兴趣.我想用十六进制中仅前两个字符替换B列,然后将它们转换为十进制. 因此,最终结果应该是一个数据帧,如下所示:A B foo 19 bar 15 baz 90我什至不知道如何将前两个字符设置为子集.看来应该可以,但是不能:df.B.str[:2]任何帮助将不胜感激.解决方...

python-以任何方式在Pandas DataFrame查询中强制转换类型吗?【代码】

假设我有一个3列的数据框,都为浮点型,将其命名为DT1.现在,如果我想通过查询DT1从DT1创建另一个数据帧,请说第二个称为DT2.DT2 = DT1.query(‘(column1/column2) == (column3/column2)’)仅当方程式的两边完全匹配时,此方法才有效.如果我只想比较两侧的整数结果怎么办? 喜欢:DT2 = DT1.query(‘(column1/column2).astype(int) == (column3/column2)’).astype(int)上面的示例不起作用,有解决方案吗? PS:DT2 = DT1.loc(‘(DT1[col...

python-Pandas DataFrame在groupby中删除行【代码】

我有一个包含三列的日期,广告商和ID的DataFrame.我首先对数据进行了分组,以查看某些广告商的体积是否太小(例如,count()小于500).然后,我想将这些行放入组表中.df.groupby(['Date','Advertiser']).ID.count()结果如下:Date Advertiser2016-01 A 50000B 50C 4000D 240002016-02 A 6800B 7800C 1232016-03 ...

python-按列数过滤Pandas df并写入数据【代码】

我有一个数据集,这些数据集位于地理位置社交媒体中,我试图通过它们按user_id大于1(发布2次或更多次的用户)的频率进行过滤.我想对此进行过滤,以便进一步清理正在创建的轨迹数据. 样例代码:# Import Data data = pd.read_csv('path', delimiter=',', engine='python') #print len(data),"rows" #print data# Create Data Fame df = pd.DataFrame(data, columns=['user_id','timestamp','latitude','longitude']) #print data.head()...

python-如何在Pandas Dataframe中查找特定值【代码】

我已经以csv格式在熊猫中导入了数据.谁能告诉我如何在我拥有的其中一列中找到280以上的值,并将其放入另一个数据框中.到目前为止,我已经完成了以下代码:import numpy as np import pandas as pd df = pd.read_csv('...csv')数据的一部分就像所附的图片:enter image description here解决方法:您需要boolean indexing:df1 = df[df[2] > 280]如果需要还选择仅列添加loc:s = df.loc[df[2] > 280, 2]样品:df = pd.DataFrame({0:[1,...

python-pandas —如何使系列成为字典【代码】

现在我有这个系列:us 2 br 1 be 3 dtype: int64所以如何获得我的清单.如下:[ { "country": "us", "value": 2},{ "country": "br", "value": 1},{ "country": "be", "value": 3} ]谢谢解决方法:首先创建DataFrame,然后使用DataFrame.to_dict:print (s.rename_axis('country').reset_index(name='value').to_dict('records')) [{'value': 2, 'country': 'us'}, {'value': 1, 'country': 'br'}, {'value': 3, 'country': ...

python-在Pandas DataFrame中构建复杂的子集【代码】

我正在使用GroupBy,但仍然需要一些帮助.假设我有一个带有列Group的DataFrame,为对象提供了组编号,一些参数R和球坐标RA和Dec.这是一个模拟DataFrame:df = pd.DataFrame({ 'R' : (-21.0,-21.5,-22.1,-23.7,-23.8,-20.4,-21.8,-19.3,-22.5,-24.7,-19.9),'RA': (154.362789,154.409301,154.419191,154.474165,154.424842,162.568516,8.355454,8.346812,8.728223,8.759622,8.799796),'Dec': (-0.495605,-0.453085,-0.481657,-0.6148...

python-如何在Pandas DataFrame的几列中进行一键编码以供以后与Scikit-Learn一起使用【代码】

说我有以下数据import pandas as pd data = {'Reference': [1, 2, 3, 4, 5],'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'],'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich', 'Berlin'],'Mileage': [35000, 45000, 121000, 35000, 181000],'Year': [2015, 2014, 2012, 2016, 2013]} df = pd.DataFrame(data)我想在其上对“品牌”和“镇”两列进行一次热编码,以训练分类器(例如使用Scikit-Learn)并预测年份...

python-Pandas DataFrame中两个非数字列之间的相关性【代码】

我从表中的SQL查询中获取数据到熊猫数据框.数据如下:group phone_brand 0 M32-38 小米 1 M32-38 小米 2 M32-38 小米 3 M29-31 小米 4 M29-31 小米 5 F24-26 OPPO 6 M32-38 酷派 7 M32-38 小米 8 M32-38 vivo 9 F33-42 三星 10 M29-31 华为 11 F33-42 华为 ...