【python-浮动到百分比样式错误的Pandas dataframe列】教程文章相关的互联网学习教程文章

python-查找具有NaN值的DataFrame列表的索引-熊猫【代码】

我有一个数据帧列表,其中一些数据帧具有NaN值.到目前为止,我可以使用此link标识单个数据帧的NaN值. 如何找到数据框具有NaN值的列表的索引. DFF的样本列表,[ var1 var1 14.171250 13.593813 13.578317 13.595329 10.301850 13.580139 9.930217 NaN 6.192517 13.561943 NaN 13.565149 6.197983 13.572509, var1 var2 2.456183 5.907528 5.052017 5.955731 5.960000 5.97248...

python-PySpark-从Numpy矩阵创建DataFrame【代码】

我有一个numpy的矩阵:arr = np.array([[2,3], [2,8], [2,3],[4,5]])我需要从arr创建一个PySpark数据框.我无法手动输入值,因为arr的长度/值将动态变化,因此我需要将arr转换为数据帧. 我尝试以下代码未成功.df= sqlContext.createDataFrame(arr,["A", "B"])但是,出现以下错误.TypeError: Can not infer schema for type: <type 'numpy.ndarray'>解决方法:希望这可以帮助!import numpy as np#sample data arr = np.array([[2,3], [2...

python-Pandas DataFrame:测试是否设置了索引【代码】

我有一个带有多个列的DataFrame,其中一列是datetime类型.有时,此列通过df.set_index(…)用作索引. 在其他情况下,我需要重置该索引以保留datetime列.现在,我正在寻找一种方法来检查数据框是否具有默认索引.我试过了,但这不适用于所有情况:if df.index.name is not None:df.reset_index(inplace=True)我可以测试索引的类型是否为datetime,但是我真的想知道是否存在像df.is_index_set()这样的常规方法.有什么建议吗?解决方法:您不应...

python-将元组的无序列表转换为pandas DataFrame【代码】

我正在使用库usaddress来解析我拥有的一组文件中的地址.我希望我的最终输出是一个数据框,其中列名代表地址的一部分(例如街道,城市,州),行代表我提取的每个地址.例如: 假设我有一个地址列表:addr = ['123 Pennsylvania Ave NW Washington DC 20008', '652 Polk St San Francisco, CA 94102', '3711 Travis St #800 Houston, TX 77002']然后使用usaddress提取它们info = [usaddress.parse(loc) for loc in addr]“ info”是元组列表...

Python DataFrame-groupby和质心计算【代码】

我有一个包含两列的数据框:一列包含类别,另一列包含300维向量.对于“类别”列中的每个值,我都有很多300维向量.我需要的是按“类别”列对数据帧进行分组,并同时获取与每个类别有关的所有向量的质心值.Category Vector Balance [1,2,1,-5,....,9] Inquiry [-5,3,1,5,...,10] Card [-3,1,2,3,...1] Balance [1,3,-2,1,-5,...,7] Card [3,1,3,4,...,2] 因此,在上述情况下...

python-在另一个DataFrame中为每一行复制并连接Pandas Dataframe【代码】

我想为不同数据框中的每一行创建并堆叠一个数据框. For Example 我尝试通过遍历一个行并复制和堆叠另一个行来做到这一点,但这是一个非常缓慢的过程.有本地的熊猫方式可以做到这一点吗?解决方法:输入:a = pd.DataFrame({'first':[1,2,3],'second':['one','two','three']}) b = pd.DataFrame({'alice':['yes','no'],'bob':['no','yes']})创建一个虚拟密钥并合并以创建笛卡尔乘积a.assign(key=1).merge(b.assign(key=1), on='key')....

python-根据0级索引对多索引Pandas DataFrame的1级索引进行自定义排序【代码】

我有一个multindex DataFrame,df:arrays = [['bar', 'bar', 'baz', 'baz', 'baz', 'baz', 'foo', 'foo'],['one', 'two', 'one', 'two', 'three', 'four', 'one', 'two']]df = pd.DataFrame(np.ones([8, 4]), index=arrays)看起来像:0 1 2 3 bar one 1.0 1.0 1.0 1.0two 1.0 1.0 1.0 1.0 baz one 1.0 1.0 1.0 1.0two 1.0 1.0 1.0 1.0three 1.0 1.0 1.0 1.0four 1.0 1.0 1.0 1.0 foo on...

python pandas如何在dataframe列中选择前后10行【代码】

我有这个数据框,我想在特定列上选择10行.我已经达到了这一点,但是我想知道如何在lambda python表达式中使其更加优雅,因为我需要在循环中运行1万次.import pandas as pddf = pd.DataFrame(data=np.random.rand(90),index=pd.date_range('2015-01-01','2015-03-31'),columns=['A'])我已经将此作为正在进行的解决方案: 之前和之后的10个观察结果:df.loc['2015-01-17':].head(11)[1:11].transpose() ! before df.loc[:'2015-01-17'...

python-如何将自定义函数列表传递给pandas.Dataframe.aggregate【代码】

我正在尝试使用不同的自定义函数(尤其是来自scipy.stats)聚合pd.Dataframe.我可以将其与单个函数一起使用,在这种情况下为trim_mean:import pandas as pd import numpy as np from scipy.stats import trim_meandf = pd.DataFrame(np.random.randn(100, 3), columns=['A', 'B', 'C'], index=pd.date_range('1/1/2000', periods=100))# this works as expected df.agg([np.sum, np.mean])# now with a different function, works al...

python-遍历dataframe groupby【代码】

A B C 0 Bob 10 2 1 Bob 11 8 2 Sarah 23 -2 3 Sarah 24 4 4 Jack 19 -4 5 Jack 21 -1我想获得一个新的df [“ Point”],如下所示: >对于“鲍勃”组:df [“点”]是第一个B值与C值的乘积. 10 * 2 = 20; 10 * 8 = 80.>对于“ Sarah”组:df [“ Point”]是第一个B值与C值的乘积. 23 *(-2)=(-46); 23 * 4 = 92.>对于“杰克”组:df [“点”]是第一个B值与C值的乘积. 19 *(-4)=(-76); 19 *(-1)=(-19). 我的...

python-遍历DataFrame并跟踪一定的序列持续时间【代码】

我想弄清楚负值出现的频率和负价出现的时间. 例子dfd = {'value': [1,2,-3,-4,-5,6,7,8,-9,-10], 'period':[1,2,3,4,5,6,7,8,10]} df = pd.DataFrame(data=d)我检查了哪些行具有负值. df [‘value’]< 0我以为我可以只遍历每一行,为出现负值时保留一个计数器,并且可以将该行移至另一个df,因为我想保存开始时间和结束时间.我目前正在尝试什么 def count_negatives(df):df_negatives = pd.DataFrame(columns=['start','end', 'counte...

python-通过索引pandas DataFrame提取单个值【代码】

我正在从熊猫数据框中调用一行row = df.iloc[[i]] customer.customer_id = row['billing_city']然后,当我调用`customer.billing_city时,会得到类似的输出4 Brooklyn Name: billing_address_city, dtype: object我只想拥有Booklyn用于创建对象等目的解决方法:使用df.iat访问单个项目.df.iat[i, df.columns.get_loc('billing_city')]使用iat的原因与使用iloc的原因相同.如果您的索引是整数,则没有关系,可以改用df.at. 还有loc项目...

如何在Python中重塑此DataFrame?【代码】

我想重塑Python中的DataFrame df_sale,在价格列中计算总和并添加一个新的总计.以下是df_sale:b_no a_id price c_id 120 24 50 2 120 56 100 2 120 90 25 2 120 45 20 2 231 89 55 3 231 45 20 3 231 10 250 3重塑后的预期输出:b_no a_id_1 a_id_2 a_id_3 a_id_4 total c_id 120 24 56 90 45 195 2 231 89 45 ...

python-如何将字符串转换为在同一列中带有空格的DataFrame【代码】

下面是一个示例字符串.如何将此字符串转换为Pandas Dataframe?str1 ="""Feature Id & Feature Desc Status Failed Total --------------------------------------------------- -------- ------ -----RKSPACE (RackSpace Test In) Passed 0 1 D1 (Drum 1 Test) Passed 0 1 D2 (Drum 2 Test) ...

python-如何正确处理具有NaT值的整个DataFrame中的日期时间比较?【代码】

我在尝试检查DataFrame是否具有超过特定日期的值时偶然发现了这种奇怪的行为,而该DataFrame也可能包含pd.NaT 值比较的行为符合预期:import pandas as pdpd.NaT > pd.to_datetime('2018-10-15') # False与系列的比较也表现出预期的效果:s = pd.Series([pd.NaT, pd.to_datetime('2018-10-16')]) s > pd.to_datetime('2018-10-15')#0 False #1 True #dtype: bool但是,DataFrame比较是不正确的:s.to_frame() > pd.to_datetim...

错误 - 相关标签