【python – 如何在切割其DataFrame后更新pandas MultiIndex的级别?】教程文章相关的互联网学习教程文章

python – 将dataFrame转换为list【代码】

我有一个pandas数据帧,我转换为numpy数组,如下所示:df.values它给出了以下输出:array([[2],[0],[1],..., [0],[1],[0]], dtype=int64)但是我想获得如下列表:[0, 2, 3]知道怎么做吗?解决方法:也许您可以使用iloc或loc来选择列,然后使用tolist:print dfa 0 2 1 0 2 1 3 0 4 1 5 0print df.values [[2][0][1][0][1][0]]print df.iloc[:, 0].tolist() [2, 0, 1, 0, 1, 0]或者可能:print df.values.tolist() [[2L], [0L], [1...

python – Pyspark Dataframe Imputations – 根据指定条件用Column Mean替换未知和缺失值【代码】

给定Spark数据帧,我想基于该列的非缺失值和非未知值计算列平均值.然后我想采取这个意思并用它来代替列的缺失&未知的价值. 例如,假设我正在使用: >名为df的数据帧,其中每个记录代表一个个体,所有列都是整数或数字>名为年龄的列(每个记录的年龄)>名为missing_age的列(如果该个人没有年龄,则等于1,否则为0)>名为unknown_age的列(如果该个人的年龄未知,则等于1,否则为0) 然后我可以计算出这个均值,如下所示.calc_mean = df.where((col...

Python pandas DataFrame操作【代码】

官方文档地址: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html # coding=utf-8import pandas as pd import numpy####### 创建df dic = {'name': ['zhangsan', 'lisi'],'score': [80, 90] } df = pd.DataFrame(dic)# 生成随机数填充的一个df df = pd.DataFrame(numpy.random.randint(0, 100, size=(10, 4)), columns=list('ABCD'))df = pd.DataFrame([['zhangsan', 80], ['lisi', 90]], columns=['n...

Python的DataFrame多个条件过滤错误【图】

执行的代码:1、报错如下:ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().2、应该修改如下(注:别忘记了表达式两边加括号):

python读取excel指定列名,dataframe连接,两列相减作为第三列的值【代码】

# encoding: utf-8 import arcpy import xlrd import pandas as pd path=r"D:\pyWork\resultAna\dl" day=29 while(day>28):pp=path+"\\ppday"+str(day)+".xls"cs = path + "\\csday" + str(day) + ".xls"#读取excel指定列名datapp=pd.read_excel(pp,names=[id,score])datacs=pd.read_excel(cs,names=[id,score])#基于某列来连接两个dataframejg=pd.merge(datapp,datacs,how = left,on=id)#添加一列jg[per]=(jg[score_y])/jg[score_...

python DataFrame:列行自定义转置函数pivot(超级实用没有之一)【图】

最近参加一个小比赛,前期数据预处理搞得我头昏脑胀。特别是以下这类数据的转换,发现pivot函数后,真香,真好用! 话不多说直接上图示例数据(test_df为DataFrame对象)我需要转换成以device_id为索引,app_id为各列名,num为元素值 其实这个数据我解释下,就好理解我为什么需要这样转换了。 首先device_id是设备id,app_id是对应设备使用的app的id,num则是对应device_id设备使用某app的次数 但我想要的数据是拿来进行每个device...

python--DataFrame随机抽样

平时工作中,经常遇到随机抽样的需求,可用Pandas库中的sample函数,简单又快捷。 官方文档解释在这:sample DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) n: 要抽取的行数,需为整数值 frac:抽取的比列,需为小数值,比方说我们想随机抽取30%的数据,则设置frac=0.3即可。 replace:抽样后的数据是否代替原DataFrame(),默认为False weights:默认为等概率加权 random_state...

【Python学习】解决pandas中打印DataFrame行列显示不全的问题

在使用pandas的DataFrame打印时,如果表太长或者太宽会自动只给前后一些行列,但有时候因为一些需要,可能想看到所有的行列。 所以只需要加一下的代码就行了。 #显示所有列 pd.set_option('display.max_columns', None) #显示所有行 pd.set_option('display.max_rows', None) #设置value的显示长度为100,默认为50 pd.set_option('max_colwidth',100)

python pandas dataframe 实现mysql group_contact功能【代码】【图】

dict_ = { stu:[a,b,a,b,c], fav:[fa,fb,faa,fbb,fc] } df_ = pd.DataFrame(dict_)print(df_)#输出内容: # 通过 groupby apply 加lambda实现group_contact print(df_.groupby(stu).apply(lambda x: ,.join(x.fav))) 当然这样也可以实现: print(df_.groupby(stu).apply(lambda x: list(x.fav)))或则: print(df_.groupby(stu).agg({fav : lambda x: , .join(x)}))

python pandas dataframe 读取和写入Oracle【代码】

1、代码:主要写入时表要为小写,否则报错   Could not reflect: requested table(s) not available in Enginefrom sqlalchemy import create_engine conn_string=oracle+cx_oracle://admin:admin@192.168.923.147:1521/ORCL?charset=utf8 engine = create_engine(conn_string, echo=False,encoding=utf-8) # ,encoding = "UTF-8", nencoding = "UTF-8" print(engine) data.to_sql(erp_goods_price, con=engine,if_exists=repla...

如何正确将python的DataFrame格式数据导入到mysql数据库【代码】

如何正确将DataFrame格式数据导入到mysql数据库 读取数据库的操作和将数据写入到数据库还是有点不一样的 将DataFrame格式数据导入到mysql数据库,采用create_engine()方法: from sqlalchemy import create_engine # create_engine('mysql+pymysql://用户名:密码@主机/库名?charset=utf8') engine = create_engine('mysql+pymysql://root:wx123456@localhost/testwuxian?charset=utf8') #将数据写入sql pd.io.sql.to_sql(table_c...

python – 将数据从sqlalchemy移动到pandas DataFrame【代码】

我正在尝试在pandas DataFrame中加载SQLAlchemy. 当我做:df = pd.DataFrame(LPRRank.query.all())我明白了>>> df 0 <M. Misty || 1 || 18> 1 <P. Patch || 2 || 18> ... ...但是,我想要的是数据库中的每一列都是数据帧中的一列:0 M. Misty 1 18 1 P. Patch 2 18 ... ...当我尝试:dff = pd.read_sql_query(LPRRank.query.all(), db.session())我收到属性错误:AttributeError: 'SignallingSessi...

python – 将Pandas DataFrame写入MySQL数据库【代码】

我正在尝试使用以下代码将pandas数据帧写入MySQL数据库.import pandas as pd import numpy as np from pandas.io import sql import MySQLdbdf = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8]]).Tdb = MySQLdb.connect("192.168.56.101","nilani","123","test") cursor = db.cursor()cursor.execute(...

python – pandas.DataFrame.to_sql中的最佳chunksize参数【代码】

使用需要转储到PostgreSQL表中的大型pandas DataFrame.从我所读到的,一次性转储所有并不是一个好主意,(我正在锁定数据库)而是使用chunksize参数.答案here对工作流程很有帮助,但我只想问一下影响性能的chunksize的价值.In [5]: df.shape Out[5]: (24594591, 4)In [6]: df.to_sql('existing_table',con=engine, index=False, if_exists='append', chunksize=10000)是否存在建议的默认值,并且在将参数设置为更高或更低时性能是否存在差...

python – Pandas DataFrame.to_sql()错误 – 不是在字符串格式化过程中转换的所有参数【代码】

Python版本 – 2.7.6 熊猫版 – 0.17.1 MySQLdb版本 – 1.2.5 DataFrame.to_sql()抛出pandas.io.sql.DatabaseError:sql执行失败’SELECT name FROM sqlite_master WHERE type =’table’AND name =?;’:不是在字符串格式化过程中转换的所有参数 Python代码段con = MySQLdb.connect('localhost', 'root', '', 'product_feed') cur = con.cursor() cur.execute("SELECT VERSION()") connection_result = cur.fetchall() print ...

INDEX - 相关标签