格式化和清洗数据的Python工具包
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了格式化和清洗数据的Python工具包,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3304字,纯文字阅读大概需要5分钟。
内容图文
![格式化和清洗数据的Python工具包](/upload/InfoBanner/zyjiaocheng/429/abb34c1cfccf4f9aad7aafadfd50f970.jpg)
整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。
告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。
Dora
Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:
读取含有缺失数据和没有标准化的数据表
给缺失数据赋值
标准化变量
开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora
datacleaner
号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”
它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。
开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner
PrettyPandas
DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。
开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas
tabulate
tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。
它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。
开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate
scrubadub
健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:
姓名 (名词)
Email地址
网络链接
电话号码
用户名/密码组
Skype 用户名
社会保险号
文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。
开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html
Arrow
让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。
Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。
开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/
Beautifier
Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)
开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. â€?quotesâ€x9d becomes "quotes"; uÌ? becomes ü; <3 becomes <3. If you work with text on a daily basis, this library is, as one user says, “a handy piece of magic.”
ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。â€?quotesâ€x9d 变成 "quotes"; uÌ? 变成 ü; <3 变成 <3.
开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy
内容总结
以上是互联网集市为您收集整理的格式化和清洗数据的Python工具包全部内容,希望文章能够帮你解决格式化和清洗数据的Python工具包所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。