首页 / PYTHON / R、Python、Open Refine采集pdf数据，清理数据和格式化数据

R、Python、Open Refine采集pdf数据，清理数据和格式化数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了R、Python、Open Refine采集pdf数据，清理数据和格式化数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4718字，纯文字阅读大概需要7分钟。

内容图文

原文链接：http://tecdat.cn/?p=8076

获取，清理和格式化数据

在本文中，我们将介绍一些技巧和窍门，这些技巧和窍门用于在线查找所需数据，将其存储到计算机上以及如何识别和清除“脏”数据。我们还将回顾一些常见的数据格式，以及如何从一种转换为另一种。

我们今天将使用的数据

?gdp_percap.csv 世界银行关于1990年至2016年国家和国家集团人均国内生产总值（GDP）的数据，以当前国际美元计价，并根据不同地区的购买力进行了校正。

ucb_stanford_2014.csv2014年从UC Berkeley和斯坦福大学获得的联邦政府拨款数据可从USASpending.gov下载。
wr_50m_sept_6_2018.pdfPDF，其中包含来自国际泳联，游泳和其他水上运动国际联合会的最新世界游泳记录。

搜索在线数据库

可以在线搜索许多重要的公共数据库，有些提供下载查询结果的选项。这些数据库中的大多数都提供一个简单的搜索框，但始终值得寻找高级搜索页面，该页面将提供更多选项来自定义搜索。例如，这里是ClinicalTrials.gov的高级搜索页面：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

当您开始使用新的联机数据库时，请花一些时间来熟悉其搜索的工作方式：阅读帮助或常见问题解答，然后运行测试搜索以查看获得的结果。

还要找出数据库是否允许“通配符”，例如*或%可以放在搜索中的通配符，以获得带有单词或数字变化的结果。

从网上抓取数据

有时，您需要根据散布在一系列网页中的信息或在不允许简单下载数据或访问API的数据库中维护的信息来编译自己的数据。这就是Web抓取的地方。

使用R或Python之类的编程语言，可以编写脚本来从许多网页提取数据，或者查询Web搜索表单以逐段下载整个数据库。

我们已经通过操作Web搜索表单上的url并批量下载各个链接来执行Web抓取的某些元素。

PDF：数据

一些组织坚持将数据提供为PDF，而不是文本文件，电子表格或数据库。这使得数据难以提取。尽管您始终应该以更友好的格式（最好是CSV或其他简单的文本文件）来请求数据，有时可能会发现自己需要从PDF中提取数据。

可以从数字PDFS中的表中提取数据。

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

启动时，它会在Web浏览器中打开。但是，您加载到程序中的所有数据都将保留在计算机上-不会在线发布。

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

导入PDF后，突出显示第一张表中显示男子个人记录的部分单击Preview & Export Extracted Data以查看提取的数据：

识别脏数据

在理想的世界中，我们找到的每个数据集都会经过精心策划，使我们能够开始分析和可视化，而不必担心其准确性。

但是，实际上，通常最好的可用数据都有一些缺陷，可能需要尽可能地加以纠正。因此，在开始使用新数据集之前，请将其加载到电子表格或数据库中，并查看常见错误。例如，这里是来自BMIS数据库的记录示例，其名称包括非字母字符，这显然是错误的：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

一些字段提供了一些明显的检查：例如，如果您看到的邮政编码少于5位，则知道它一定是错误的。

日期也可能输入错误，因此值得扫描那些不在数据范围之内的日期。

还要扫描代表连续变量的字段中的数字，以查找任何明显的异常值。

其他常见问题是某些条目前后的空白，可能需要将其删除。

使用Open Refine清理和处理数据

在许多数据新闻项目中，检查和清除“脏”数据以及将数据处理为所需的格式可能是最耗费人力的部分。但是，Open Refine（以前称为Google Refine）可以简化任务-还可以创建可复制的脚本，以对必须以相同方式清理和处理的数据快速重复该过程。

启动Open Refine时，它将在Web浏览器中打开。但是，您加载到程序中的所有数据都将保留在计算机上-不会在线发布。

打开屏幕应如下所示：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

将数据从宽格式转换为长格式

单击Choose Files按钮并导航到文件gdp_percap.csv。单击Next>>，然后在下一个屏幕上确保Parse cell text into numbers, dates,...已选中

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

Open Refine以绿色显示数字和日期，以黑色显示整个文本。因此，选中此按钮应该使数字变为绿色。Open Refine还应该识别数据在CSV文件中，但是如果不是，则可以使用底部的面板为数据指定正确的文件类型和格式。

屏幕现在应如下所示：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

如您所见，数据是宽格式的，按区域组织了各地区的石油产量值，每年一次。要将其转换为长格式，请单击这些年的第一列中的向下的小三角形，然后选择Transpose>Transpose cells across columns into rows。

如下所示填写对话框，确保正确地将From Column和To Column突出显示，并为Key column和Value column指定了适当的名称，并进行了Fill down in other columns选中。

单击Transpose，然后单击50行链接，以查看调整后的数据的前50行：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

单击右上角的Export按钮，您将看到用于以各种文件类型（包括Comma-separated value和Excel电子表格）导出数据的选项。

清理和处理脏数据

单击左上角的“打开优化” 以返回到打开屏幕。从文件创建一个新项目ucb_stanford_2014.csv。

同样，每个字段/列都有一个带有指向下方的三角形的按钮。单击这些按钮，您将获得为列创建“构面”的选项，这提供了一种强大的方式来编辑和清除数据。

AllOpen Refine中的列下拉菜单可用于删除不需要的列并快速记录要保留的列。选择Edit Columns>Re-order / remove columns以弹出此对话框：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

但是，在这里我们将保留所有数据。

我们可以手动进行编辑，但是要说明Open Refine的编辑功能，请单击Cluster按钮。在这里，您可以尝试使用不同的聚类算法来编辑：

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?

如果您有任何疑问，请在下面发表评论。

?

大数据部落 -中国专业的第三方数据服务提供商，提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务：y0.cn/teradat（咨询服务请联系官网客服）

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?QQ：3025393450

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片 ?QQ交流群：186388004

【服务场景】

科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询

R、Python、Open Refine采集pdf数据，清理数据和格式化数据 - 文章图片

欢迎选修我们的R语言数据分析挖掘必知必会课程！

内容总结

以上是互联网集市为您收集整理的R、Python、Open Refine采集pdf数据，清理数据和格式化数据全部内容，希望文章能够帮你解决R、Python、Open Refine采集pdf数据，清理数据和格式化数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/680198.html

来源：【匿名】

【上一篇】python-当最后一位为零[低]时,将二进制转换为整数时出错【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【R、Python、Open Refine采集pdf数据，清理数据和格式化数据】教程文章相关的互联网学习教程文章

python3.5中的格式化输出【代码】【图】

运用占位符来进行格式化输出代码如下： 1#__author:"Cheng" 2#date:2018/2/11 3 4 name = input("请输入您的姓名：")5 age = input("请输入您的年龄：")6 job = input("您的工作：")7 salary = input("您的薪资：")8 9if age.isdigit(): #判断上面输入的年龄是不是一串数字10 age = int(age) #是的话重新赋值字符串为整型11else: 12 exit("年龄一栏请输入数字！")#程序终止,并给出提示1314if salary.isdigit(): #判断上面...

Python新特性：格式化输出【代码】

Python新特性：格式化输出格式化输出(%s format())name = ‘whj‘ age = 18 msg1 = ‘我叫%s,今年%s岁‘%(name, age) msg2 = ‘我叫{},今年{}岁‘.format(name, age)新特性：格式化输出 name = ‘xhl‘ age = 18 msg = f‘我叫{name},今年{age}岁‘可以加表达式、字典、列表、函数 dic = {‘name‘:‘whj‘ , ‘age‘:18} msg = f‘我叫{dic["name"]},今年{dic["age"]}岁‘count = 7 print(f‘最终结果：{count**2}‘)name = ‘wh...

010.Python字符串的格式化【代码】【图】

字符串的格式化顺序传参索引传参关键字传参容器类型传参(列表和元组){}相当于占位符1 顺序传参strvar = "他{}牺牲自己，{}出卖组织" res = strvar.format("宁愿","也不") print(res) res = strvar.format("白白","忘了") print(res)执行[root@node10 python]# python3 test.py他宁愿牺牲自己，也不出卖组织他白白牺牲自己，忘了出卖组织2 索引传参strvar = "他{1}牺牲自己，{0}出卖组织" res = strvar.format("宁愿","也不") prin...

python基础之字符串格式化【代码】

字符串格式化%s、%d、%f、%e、%g、fomart()方法%s 既能接受字符串，也能接受数字例子：print(‘%s‘%(1)) print(‘%s‘%(‘hello world‘)) %d 只能接受数字，若传入数字带小数，则只取整数例子：print(‘%d‘%(1.91)) %f 只能接受数字 %f ——保留小数点后面六位有效数字%.3f，保留3位小数位例子：print(‘%f‘ % (1)) # 默认保留6位小数 print(‘%.f‘ % (1.11)) # 保留0位小数 print(‘%.1f‘ % (1.11)) # 保留一位小数 p...

python笔记二（数据类型和变量、编码方式、字符串的编码、字符串的格式化）【代码】

一、数据类型　　python可以直接处理的数据类型有：整数、浮点数、字符串、布尔值、空值。　　整数　　浮点数　　字符串：双引号内嵌套单引号，可以输出 i‘m ok.　　　　　　也可以用\来实现，\n 换行 \t table 　　　　　　多行字符串用 ‘‘‘ ‘‘‘　　布尔值：可以对布尔值进行与或非运算/ 与and 或or 非not　　空值二、变量　　 a = 1/ a = "nadech" 与java不同，python在声明一个变量的时候不用指定变量的类型，直接...

python中字符串的格式化【代码】

1、format()位置参数>>> "abcdabdef".format() ‘abcdabdef‘ >>> "abc{0}dabdef".format("YYYY","MMMM","OOOO") ‘abcYYYYdabdef‘ >>> "abc{1}dabdef".format("YYYY","MMMM","OOOO") ‘abcMMMMdabdef‘ >>> "abc{2}dabdef".format("YYYY","MMMM","OOOO") ‘abcOOOOdabdef‘ >>> "{0}abc{2}dabdef".format("YYYY","MMMM","OOOO") ‘YYYYabcOOOOdabdef‘ >>> "{1}abc{2}dabdef".format("YYYY","MMMM","OOOO") ‘MMMMabcOOOOdabdef‘...

python-4-格式化输出【代码】【图】

前言有些小伙伴在打印中乱码或者编码不对，在这里讲格式化输出前，先讲下编码。我们都知道目前主流使用就是utf-8编码。一、编码简介编码用来让计算机识别，当然我们都知道计算机只能识别01010101这种，举个例子001表示：A，8位 = 1字节bytes1.最早发明的 ascii 编码只能表示256种，中国9万多文字字符如何去表示得完呢？2**8,1个字节。2.万国码 unicode 太多了浪费，2**32，4个字节。3.utf-8 编码：我们以后将会常用此编码。①一个字...

Python格式化css文件的方法【代码】

本文实例讲述了Python格式化css文件的方法。分享给大家供大家参考。具体实现方法如下： import string, sys import re, StringIO TAB=4 def format(ss):f = open (ss, "r")data = f.read()f.close()dlen = len(data)i = 0buf = StringIO.StringIO()start = 0while i < dlen:if data[i] == ‘{‘:buf.write(data[start:i] + ‘ { ‘)i = i + 1start = ielif data[i] == ‘}‘:last = string.strip(data[start:i])if last:buf.write(...

编写一个Python程序，从控制台输入一个字符串（保存在变量S中），然后通过while循坏不断输入字符串（保存在变量substr中），并统计substr在s中出现的次数，然后利用format方法格式化统计结果。【代码】

s = input("请输入一个字符串：") while True:subStr = input("请输入另一个字符串")if subStr == "exit":break;i = 0count = 0while i < len(s):j = s.find(subStr,i)if j > -1:count +=1i = j + len(subStr) else:break;print("‘‘{}‘在‘{}‘中出现了‘{}‘次".format(subStr,s,count))原文：https://www.cnblogs.com/ppystudy/p/12111020.html

Python中使用pprint函数进行格式化输出的教程【代码】

pprint – 美观打印作用：美观打印数据结构pprint 包含一个“美观打印机”，用于生成数据结构的一个美观视图。格式化工具会生成数据结构的一些表示，不仅可以由解释器正确地解析，而且便于人类阅读。输出尽可能放在一行上，分解为多行时则需要缩进。以下实例用用到的data包含一下数据 data = [(1,{‘a‘:‘A‘,‘b‘:‘B‘,‘c‘:‘C‘,‘d‘:‘D‘}),(2,{‘e‘:‘E‘,‘f‘:‘F‘,‘g‘:‘G‘,‘h‘:‘H‘,‘i‘:‘I‘,‘j‘:‘J‘...

Python系列-格式化数据并排序【代码】【图】

目的:将几个记录时间时刻的数据格式化统一，然后进行排序。1.前提有四个文件，文件的格式都不一样，都表示时间 james.txt‘2-34‘, ‘3:21‘, ‘2.34‘, ‘2.45‘, ‘3.01‘, ‘2:01‘, ‘2:01‘, ‘3:10‘, ‘2-22‘julie.txt‘2.59‘, ‘2.11‘, ‘2:11‘, ‘2:23‘, ‘3-10‘, ‘2-23‘, ‘3:10‘, ‘3.21‘, ‘3-21‘mikey.txt‘2:22‘, ‘3.01‘, ‘3:01‘, ‘3.02‘, ‘3:02‘, ‘3.02‘, ‘3:22‘, ‘2.49‘, ‘2:38‘sara...

Python：格式化输出【代码】

格式化输出方式一:(%s)我们经常会输出类似‘亲爱的xxx你好！你xx月的话费是xx，余额是xx‘之类的字符串‘，而xxx的内容都是根据变量变化的，所以，需要一种简便的格式化字符串的方式。在Python中，%运算符就是用来格式化字符串的。在字符串内部，%s表示用字符串替换，%d表示用整数替换，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。Python中的 %s 方法传递的时候，也可以是看作是shell中...

Python基础之格式化输出函数format()功能详解

之前发过一篇文章:Python基础之常用格式化输出字符详解但是呢，有时候我们需要用到多个%的时候，用这个就很不方便了，比如数错%数量或者一一对应的时候。。。这里补充一个字典方式的格式化输出字符的办法print(“double abc is %(a)s%(b)s%(c)s”%{‘a’:’aa’,’b’:’bb’,’c’:’cc’})这种方法呢，最大一个好处是字典格式可以和 json 文件互相转换，相当方便！format() 今天呢，在这里在给大家介绍一个比较先进的方法：form...

python之字符串格式化(format)

12345>>> ‘{0:.2f}‘.format(1/3)‘0.33‘>>> ‘{0:b}‘.format(10) #二进制‘1010‘>>> ‘{0:o}‘.format(10) #八进制‘12‘>>> ‘{0:x}‘.format(10) #16进制‘a‘>>> ‘{:,}‘.format(12369132698) #千分位格式化‘12,369,132,698‘null原文：http://www.cnblogs.com/xiejunzhao/p/7182001.html

Python3 字符串格式化【图】

字符串的格式化方法分为两种，分别为占位符(%)和format方式。占位符方式在Python2.x中用的比较广泛，随着Python3.x的使用越来越广，format方式使用的更加广泛。一占位符(%) %d实例(Python3.0+)：123age =29print("my age is %d"%age)#my age is 29%s实例(Python3.0+)：123name ="makes"print("my name is %s"%name)#my name is makes%f实例(Python3.0+)：1234print("%6.3f"%2.3)#2.300print("%f"%2.3)#2.300000二 format方法位置映...

首页 / PYTHON / R、Python、Open Refine采集pdf数据，清理数据和格式化数据

R、Python、Open Refine采集pdf数据，清理数据和格式化数据

内容导读

内容图文

原文链接：http://tecdat.cn/?p=8076

获取，清理和格式化数据

我们今天将使用的数据

搜索在线数据库

从网上抓取数据

PDF：数据

识别脏数据

使用Open Refine清理和处理数据

如果您有任何疑问，请在下面发表评论。

?

内容总结

内容备注

内容手机端

【R、Python、Open Refine采集pdf数据，清理数据和格式化数据】教程文章相关的互联网学习教程文章

python3.5中的格式化输出【代码】【图】

Python新特性：格式化输出【代码】

010.Python字符串的格式化【代码】【图】

python基础之字符串格式化【代码】

python笔记二（数据类型和变量、编码方式、字符串的编码、字符串的格式化）【代码】

python中字符串的格式化【代码】

python-4-格式化输出【代码】【图】

Python格式化css文件的方法【代码】

编写一个Python程序，从控制台输入一个字符串（保存在变量S中），然后通过while循坏不断输入字符串（保存在变量substr中），并统计substr在s中出现的次数，然后利用format方法格式化统计结果。【代码】

Python中使用pprint函数进行格式化输出的教程【代码】

Python系列-格式化数据并排序【代码】【图】

Python：格式化输出【代码】

Python基础之格式化输出函数format()功能详解

python之字符串格式化(format)

Python3 字符串格式化【图】

PYTHON - 相关标签

采集 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程