如何在Python中将JSON文件的目录加载到Apache Spark中
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了如何在Python中将JSON文件的目录加载到Apache Spark中,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含934字,纯文字阅读大概需要2分钟。
内容图文
我对Apache Spark比较陌生,我想从多个JSON文件中保存的字典列表中创建一个Python的RDD(每个都是gzip并包含一个字典列表).然后,粗略地说,生成的RDD将所有字典列表合并为单个字典列表.我在文档(https://spark.apache.org/docs/1.2.0/api/python/pyspark.html)中找不到这个,但如果我错过了,请告诉我.
到目前为止,我尝试读取JSON文件并在Python中创建组合列表,然后使用sc.parallelize(),但是整个数据集太大而无法放入内存中,因此这不是一个实用的解决方案.看起来Spark会有一种处理这个用例的聪明方法,但我并不知道.
如何在Python中创建包含所有JSON文件中的列表的单个RDD?
我还要提一下,我不想使用Spark SQL.如果可能的话,我想使用map,filter等函数.
解决方法:
按照tgpfeiffer在他们的回答和评论中提到的,这就是我所做的.
首先,正如他们所提到的,JSON文件必须被格式化,因此它们每行有一个字典而不是单个字典列表.然后,它很简单:
my_RDD_strings = sc.textFile(path_to_dir_with_JSON_files)
my_RDD_dictionaries = my_RDD_strings.map(json.loads)
如果有更好或更有效的方法来做到这一点,请告诉我,但这似乎有效.
内容总结
以上是互联网集市为您收集整理的如何在Python中将JSON文件的目录加载到Apache Spark中全部内容,希望文章能够帮你解决如何在Python中将JSON文件的目录加载到Apache Spark中所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。