首页 / JSON / 如何在Python中将JSON文件的目录加载到Apache Spark中

如何在Python中将JSON文件的目录加载到Apache Spark中

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了如何在Python中将JSON文件的目录加载到Apache Spark中，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含934字，纯文字阅读大概需要2分钟。

内容图文

到目前为止,我尝试读取JSON文件并在Python中创建组合列表,然后使用sc.parallelize(),但是整个数据集太大而无法放入内存中,因此这不是一个实用的解决方案.看起来Spark会有一种处理这个用例的聪明方法,但我并不知道.

如何在Python中创建包含所有JSON文件中的列表的单个RDD？

我还要提一下,我不想使用Spark SQL.如果可能的话,我想使用map,filter等函数.

解决方法:

按照tgpfeiffer在他们的回答和评论中提到的,这就是我所做的.

首先,正如他们所提到的,JSON文件必须被格式化,因此它们每行有一个字典而不是单个字典列表.然后,它很简单：

my_RDD_strings = sc.textFile(path_to_dir_with_JSON_files)
my_RDD_dictionaries = my_RDD_strings.map(json.loads)

如果有更好或更有效的方法来做到这一点,请告诉我,但这似乎有效.

内容总结

以上是互联网集市为您收集整理的如何在Python中将JSON文件的目录加载到Apache Spark中全部内容，希望文章能够帮你解决如何在Python中将JSON文件的目录加载到Apache Spark中所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/699787.html

来源：【匿名】

【上一篇】PHP循环中的json_encode()【下一篇】浅析php中json_encode()和json_decode()

更多 ►

【如何在Python中将JSON文件的目录加载到Apache Spark中】教程文章相关的互联网学习教程文章

ELK收集Apache的json格式访问日志并按状态码绘制图表【代码】【图】

前言需求说明：部署一个Apache，收集Apache的json格式访问日志，并且将访问日志的状态码在kibana上绘制饼状图，添加到kibana的dashboard。环境说明:10.0.0.101（test101）——部署apache、filebeat10.0.0.102（test102）——部署elasticsearch、kibana备注：本次实验的重点在于怎样收集Apache的json格式日志，因此没有装logstash。日志数据从filebeat——elasticsearch——kibana展示操作过程1、Apache、filebeat的安装部署与日志...

apache-ajax+json+php提交mysql数据库中文乱码（wampserver本地测试）求解？【图】

之前用普通表单提交注册数据的时候就没有这个问题，请问是因为使用了ajax或者是json相关的格式转换函数的时候出现的错误吗？问题如图：代码如下： $('#pro-edit-done').bind('click', function() {//获取要传递的数据var prodata = {};prodata.lid = ;console.log(prodata.lid);prodata.id = $("#pro_id").val();prodata.name = $("#pro_name").val();var data = JSON.stringify(prodata);console.log(data); $.ajax({ type: "P...

org.apache.struts2.json.JSONWritercannotaccessamembero

异常形式： Class org.apache.struts2.json.JSONWriter can not access a member of * 或是 Class com.googlecode.jsonplugin.JSONWriter can not access a member of class* 第一种是struct2.1.8与json结合时的异常，第二种是struct2.1.6与json结合的异常。异常形式： Class org.apache.struts2.json.JSONWriter can not access a member of * 或是 Class com.googlecode.jsonplugin.JSONWriter can not access a member of class...

java-Apache Jena中嵌套对象的JSON-LD空白节点【代码】

我有以下示例Turtle文档：@prefix dct: <http://purl.org/dc/terms/> . @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix example: <http://example.com/vocabulary/> . @prefix dcat: <http://www.w3.org/ns/dcat#> .<http://example.com/datasets/1>a dcat:Distribution ;example:props [ example:prop1 "hello" ;example:prop2 "1" ] ;dct:description "test d...

如何在Python中将JSON文件的目录加载到Apache Spark中【代码】

我对Apache Spark比较陌生,我想从多个JSON文件中保存的字典列表中创建一个Python的RDD(每个都是gzip并包含一个字典列表).然后,粗略地说,生成的RDD将所有字典列表合并为单个字典列表.我在文档(https://spark.apache.org/docs/1.2.0/api/python/pyspark.html)中找不到这个,但如果我错过了,请告诉我. 到目前为止,我尝试读取JSON文件并在Python中创建组合列表,然后使用sc.parallelize(),但是整个数据集太大而无法放入内存中,因此这不是...

Mybatis懒加载时,springMVC返回JSON异常 Could not write JSON: No serializer found for class org.apache.ibatis【代码】【图】

在mybatis集成springmvc时,假如mybatis采用了懒加载,而springmvc中利用@ResponseBody注解返回实体类的JSON时会抛异常: Could not write JSON: No serializer found for class org.apache.ibatis.executor.loader.javassist.JavassistProxyFactory$EnhancedResultObjectProxyImpl and no properties discovered to create BeanSerializer (to avoid exception, disable SerializationFeature.FAIL_ON_EMPTY_BEANS);先看出现问题的代...

java String 转Json报错 java.lang.NoClassDefFoundError: org/apache/commons/lang/exception/NestableRuntim

这个问题就是缺少jar包依赖！！！ java.lang.NoClassDefFoundError: org/apache/commons/beanutils/DynaBean 缺少commons-beanutils-1.8.0.jar java.lang.NoClassDefFoundError: org/apache/commons/collections/map/ListOrderedMap 缺少commons-collections.jar java.lang.NoClassDefFoundError: org/apache/commons/lang/exception/NestableRuntimeException缺少commons-lang-2.4.jarjava.lang.NoClassDefFoundError: org/apa...

如何在 Apache Hive 中解析 Json 数组【代码】

如何在 Apache Hive 中解析 Json 数组过往记忆大数据过往记忆大数据本文原文：https://www.iteblog.com/archives/2362.html （点击下面阅读原文即可进入）问题我们都知道，Hive 内部提供了大量的内置函数用于处理各种类型的需求，参见官方文档：Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数：get_json_object 和 json_tuple。用过这两个函数的同学肯定知道...

JSON - 最热教程

demjsonpython如何安装？简介dem指标的...基于JSON格式数据的简单jQuery幻灯片插...如何处理JSON中的特殊字符 node将geojson转shp返回给前端的实现方...nodejs更新package.json中的dependenci...怎样使用js实现前后台传输Json JavaScript使用两种方法实现url解析为j...php获取通过url的json数据，返回的是空...php判断json格式是否正确的方法 Redis中添加json格式的字符串

首页 / JSON / 如何在Python中将JSON文件的目录加载到Apache Spark中

如何在Python中将JSON文件的目录加载到Apache Spark中

内容导读

内容图文

内容总结

内容备注

内容手机端

【如何在Python中将JSON文件的目录加载到Apache Spark中】教程文章相关的互联网学习教程文章

ELK收集Apache的json格式访问日志并按状态码绘制图表【代码】【图】

apache-ajax+json+php提交mysql数据库中文乱码（wampserver本地测试）求解？【图】

org.apache.struts2.json.JSONWritercannotaccessamembero

java-Apache Jena中嵌套对象的JSON-LD空白节点【代码】

如何在Python中将JSON文件的目录加载到Apache Spark中【代码】

Mybatis懒加载时,springMVC返回JSON异常 Could not write JSON: No serializer found for class org.apache.ibatis【代码】【图】

java String 转Json报错 java.lang.NoClassDefFoundError: org/apache/commons/lang/exception/NestableRuntim

如何在 Apache Hive 中解析 Json 数组【代码】

PYTHON - 相关标签

APACHE - 相关标签

JSON - 相关标签

JSON - 最新教程

JSON - 最热教程