利用Python进行数据分析——第二章 引言(2):利用pandas对babynames数据集进行简单处理 使用数据集为1880年-1929年间美国婴儿名字的频率数据。数据集参见我的资源,附有网址链接。 数据为txt格式,部分数据如下图所示:根据该数据及,可以进行以下处理:计算指定名字的年度比例; 计算某个名字的相对排名; 计算各年度最流行的名字,以及增长或减少最快的名字; 分析名字的趋势:元音、辅音、长度、总体多样性、拼写变化、首位字...
11.6 重新采样和频率转换11.6.2 向上采样和插值1.向上采样:从低频率转换到高频率,不需要聚合示例:带有每周数据的DataFrame(见图11-1) 当对这些数据使用聚合函数时,每一组只有一个值,并且会在间隙中产生缺失值。我们使用asfreq方法在不聚合的情况下转换到高频率。图11-1:asfreq方法 2.fillna和reindex方法中可用的填充或插值方法可用于重采样(见图11-2)图11-2:填充 注:新的日期索引根本不需要与旧的索引重叠(见图...
第十四章 数据分析示例注:本章示例数据集可在附带的GitHub仓库(http://github.com/wesm/pydata-book)中找到14.2 MovieLens 1M数据集 GroupLens实验室(http://www.grouplens.org/node/73)提供了一些从MovieLens用户那里收集的20世纪90年代末和21世纪初的电影评分数据的集合。这些数据提供了电影的评分、电影的元数据(流派和年份)以及观众数据(年龄、邮编、性别、职业)。这些数据通常会用于基于机器学习算法的推荐系统...
第十三章 Python建模库介绍13.1 pandas与建模代码的结合 使用pandas用于数据载入和数据清洗,之后切换到模型库去建立模型是一个常见的模型开发工作流。 在机器学习中,特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析,书中会展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。1.panas和其他分析库的结合点通常是NumPy数组。要将Data...
上一节我们介绍了几种合并数据的方法. 这一节, 我们将重新开始不动产的例子. 在第四节中我们写了如下代码: import Quandl import pandas as pdfiddy_states = pd.read_html('https://simple.wikipedia.org/wiki/List_of_U.S._states')for abbv in fiddy_states[0][1][2:]:#print(abbv)print("FMAC/HPI_"+str(abbv))上面这段代码是为了获取 50 个州的简称, 进行遍历, 并生成恰当的 Quandl 查询语句, 用以查出每个州的房价. 如果单个...
这一节我想对使用 Python 和 Pandas 的数据分析做一些扩展. 假设我们是亿万富翁, 我们会想要多元化地进行投资, 比如股票, 分红, 金融市场等, 那么现在我们要聚焦房地产市场, 做一些这方面的调研. 首先, 决定房价的因素有哪些呢? 经济, 利率和人口特征.这些是影响放假的主要因素. 当然还有很多细节, 比如房子的排水系统, 屋顶, 地板等等. 但是, 首先我们还是从宏观的角度来做个大体的分析. 第一步, 就是要收集数据. Quandl 仍然是一...
这一节我们将会介绍几种不同的合并数据的方法. 在我们这个不动产投资的例子中, 我们希望获取 51 个州的房产数据, 并把它们组合起来. 我们这样做有很多原因. 这样做既便于我们做分析, 同时也可以占用更少的内存. 目前, 每个 dataframe 都有一个 "date" 列和一个 "value" 列. 有一个规律是每个 dataframe 的 "date" 列的值都是完全重复的. 也就是说我们可以使这个列成为一个公共列. 下面来讲下具体合并数据的方法. 主要有4种方法: Co...
这一节, 我们要讨论 Pandas 的输入与输出, 并且应用在现实的实际例子中. 为了得到大量的数据, 向大家推荐一个网站 Quandl. Quandl 有很多免费和付费的资源. 这个网站最大的优势在于数据的规范化, 集中性以及提取数据的方式都是一样的. 如果你获取数据的时候, 选择用 Python, 那么数据会自动转成 dataframe. 但是, 我们这节课的目的是理解 Pandas 的输入与输出, 所以我们还是手动下载一个 CSV 文件. 举个例子, 我们想要买卖德克萨斯...
基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库. 从本质上讲,它非常像操作电子表格的无头版本,如Excel. 我们所使用的大部分的数据集都可以被转换成 dataframes(数据框架). 你可能对这个术语比较熟悉了, 它被广泛地用于很多语言. 但是如果你不熟悉, 可以看下我的解释: 一个 dataframe 就很像是一个...
《利用Python进行数据分析第2版》 第 1 章 准备工作第 2 章 Python 语法基础,IPython 和 Jupyter第 3 章 Python 的数据结构、函数和文件第 4 章 NumPy 基础:数组和矢量计算第 5 章 pandas 入门第 6 章 数据加载、存储与文件格式第 7 章 数据清洗和准备第 8 章 数据规整:聚合、合并和重塑第 9 章 绘图和可视化第 10 章 数据聚合与分组运算第 11 章 时间序列第 12 章 pandas 高级应用第 13 章 Python 建模库介绍第 14 章 数据分...
文本分析: re&jieba模块 使用 正则表达式 和 中文处理模块jieba 原文地址:https://www.cnblogs.com/minutesheep/p/10357209.html
1 引言高效处理数据的python工具: 与外界进行交互:读写各种文件格式和数据库 准备:对数据进行清理、修整、整合、规范化、重塑、切片切换、变形等处理以便进行分析 转换:对数据集做一些数学和统计运算以产生新的数据集。你如说,根据分组变量对一个大表进行聚合 建模和计算:将数据进行统计模型、机器学习或其他计算工具联系起来 展示:创建交互式或静态的图片或文字摘要 2 重要的库 (1)NumPy(Numerical Python) 菜鸟教程numeri...
1 认识Figure和Subplotimport matplotlib.pyplot as plt matplotlib的图像都位于Figure对象中fg = plt.figure()通过add_subplot创建subplotax1 = fg.add_subplot(1,2,1) ax2 = fg.add_subplot(1,2,2)设置坐标轴的范围plt.xlim((-1, 1))plt.ylim((0, 3))设置坐标轴的lablematplotlib.pyplot.xlabel(xlabel, fontdict=None, labelpad=None, **kwargs)plt.xlabel(横轴:时间, fontproperties = SimHei, fontsize = 15, color = gree...
重点方法分组:groupby(列名) groupby([列1],[列2........])分组步骤:(spiltting)拆分 按照一些规则将数据分为不同的组(Applying)申请 对于每组数据分别执行一个函数(Combining) 组合 将结果组合到一个数据结构分组后默认统计的方法 1.size() 大小 = count() max(),min(),std(),median()中位数,first(),last()函数名使用count 分组中非NA(空值)的数量sum 非NA的和mean 非NA的平均值median 非NA的值的算术中位数std;var 无偏...
pandas熊猫10分钟教程 排序df.sort_index(axis=0/1,ascending=False/True)df.sort_values(by=列名)import numpy as npimport pandas as pd#生成10行10列的随机整数np.radnom.randint(10,size=(10,10))#按照多列排序,现根据第一列排序,在根据第二列排序,都是升序df.sort_values(by=[列明1,列明2,....]) pandas重点方法大全df.loc[data[0],A] 找第一行的A数据df.at[data[0],A] 同上df.iloc[1,1] = df.iat[1,1] 找对应位置的值df.co...