【Python+Spark2.0+hadoop学习笔记——pyspark基础】教程文章相关的互联网学习教程文章

Python+Spark2.0+hadoop学习笔记——pyspark基础

在历经千辛万苦后,终于把所有的东西都配置好了。 下面开始介绍pyspark的一些基础内容,以字数统计为例。 1)在本地运行pyspark程序 读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile(hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt") textFile.count() 2)在Hadoop YARN运行pyspark HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop py...