首页 / 大数据 / 大数据实战之spark安装部署

大数据实战之spark安装部署

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了大数据实战之spark安装部署，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8632字，纯文字阅读大概需要13分钟。

内容图文

楔子

我是在2013年底第一次听说Spark，当时我对Scala很感兴趣，而Spark就是使用Scala编写的。一段时间之后，我做了一个有趣的数据科学项目，它试着去预测在泰坦尼克号上幸存。对于进一步了解Spark内容和编程来说，这是一个很好的方式。对于任何有追求的、正在思考如何着手 Spark 的程序员，我都非常推荐这个项目。

今天，Spark已经被很多巨头使用，包括Amazon、eBay以及Yahoo!。很多组织都在拥有成千上万节点的集群上运行Spark。根据Spark FAQ，已知的最大的Spark集群拥有超过8000个节点。Spark确实是一个值得好好考虑和学习的技术。

Apache Spark是什么？一个简单介绍

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。去年，在100 TB Daytona GraySort比赛中，Spark战胜了Hadoop，它只使用了十分之一的机器，但运行速度提升了3倍。Spark也已经成为针对 PB 级别数据排序的最快的开源引擎。

技术分享 650) this.width=650;" title="2017-09-29_132014.png" src="/upload/getfiles/default/2022/11/4/20221104093238889.jpg" />

技术分享 650) this.width=650;" title="2017-09-29_132024.png" src="/upload/getfiles/default/2022/11/4/20221104093239174.jpg" />

Spark Core

Spark Core是一个基本引擎，用于大规模并行和分布式数据处理。它主要负责：

内存管理和故障恢复
在集群上安排、分布和监控作业
和存储系统进行交互

Spark引入了一个称为弹性分布式数据集（RDD，Resilient Distributed Dataset）的概念，它是一个不可变的、容错的、分布式对象集合，我们可以并行的操作这个集合。RDD可以包含任何类型的对象，它在加载外部数据集或者从驱动应用程序分发集合时创建。

RDD支持两种操作类型：

转换是一种操作（例如映射、过滤、联接、联合等等），它在一个RDD上执行操作，然后创建一个新的RDD来保存结果。
行动是一种操作（例如归并、计数、第一等等），它在一个RDD上执行某种计算，然后将结果返回。

在Spark中，转换是“懒惰”的，也就是说它们不会立刻计算出结果。相反，它们只是“记住”要执行的操作以及要操作的数据集（例如文件）。只有当行为被调用时，转换才会真正的进行计算，并将结果返回给驱动器程序。这种设计让Spark运行得更有效率。例如，如果一个大文件要通过各种方式进行转换操作，并且文件被传递给第一个行为，那么Spark只会处理文件的第一行内容并将结果返回，而不会处理整个文件。

默认情况下，当你在经过转换的RDD上运行一个行为时，这个RDD有可能会被重新计算。然而，你也可以通过使用持久化或者缓存的方法，将一个RDD持久化从年初在内存中，这样，Spark就会在集群上保留这些元素，当你下一次查询它时，查询速度会快很多。

SparkSQL

SparkSQL是Spark的一个组件，它支持我们通过SQL或者Hive查询语言来查询数据。它最初来自于Apache Hive项目，用于运行在Spark上（来代替MapReduce），现在它已经被集成到Spark堆中。除了针对各种各样的数据源提供支持，它还让代码转换与SQL查询编织在一起变得可能，这最终会形成一个非常强大的工具。下面是一个兼容Hive的查询示例：

技术分享 650) this.width=650;" title="2017-09-29_132152.png" src="/upload/getfiles/default/2022/11/4/20221104093239713.jpg" />

Spark Streaming

Spark Streaming支持对流数据的实时处理，例如产品环境web服务器的日志文件（例如Apache Flume和HDFS/S3）、诸如Twitter的社交媒体以及像Kafka那样的各种各样的消息队列。在这背后，Spark Streaming会接收输入数据，然后将其分为不同的批次，接下来Spark引擎来处理这些批次，并根据批次中的结果，生成最终的流。

MLlib

MLlib是一个机器学习库，它提供了各种各样的算法，这些算法用来在集群上针对分类、回归、聚类、协同过滤等（可以在 machine learning 上查看Toptal的文章，来获取更过的信息）。其中一些算法也可以应用到流数据上，例如使用普通最小二乘法或者K均值聚类（还有更多）来计算线性回归。Apache Mahout（一个针对Hadoop的机器学习库）已经脱离MapReduce，转而加入Spark MLlib。

GraphX

650) this.width=650;" title="2017-09-29_132215.png" src="/upload/getfiles/default/2022/11/4/20221104093240172.jpg" />

GraphX是一个库，用来处理图，执行基于图的并行操作。它针对ETL、探索性分析和迭代图计算提供了统一的工具。除了针对图处理的内置操作，GraphX还提供了一个库，用于通用的图算法，例如PageRank。

如何使用Apache Spark：事件探测用例

既然我们已经回答了“Apache Spark是什么？”这个问题，接下来让我们思考一下，使用Spark来解决什么样的问题或者挑战最有效率。

最近，我偶然看到了一篇关于通过分析Twitter流的方式来探测地震的文章。它展示了这种技术可以比日本气象厅更快的通知你日本哪里发生了地震。虽然那篇文章使用了不同的技术，但我认为这是一个很好的示例，可以用来说明我们如何通过简单的代码片段，在不需要”胶水代码“的情况下应用Spark。

首先，我们需要处理tweet，将那些和”地震“或”震动“等相关的内容过滤出来。我们可以使用Spark Streaming的方式很容易实现这一目标，如下所示：

1 2	TwitterUtils . createStream ( . . . ) . filter ( _ . getText . contains ( "earthquake" ) \|\| _ . getText . contains ( "shaking" ) )

然后，我们需要在tweets上运行一些语义分析，来确定它们是否代表当前发生了地震。例如，像“地震！”或者“现在正在震动”这样的tweets，可能会被认为是正向匹配，而像“参加一个地震会议”或者“昨天的地震真可怕”这样的tweets，则不是。这篇文章的作者使用了一个支持向量机（support vector machine, SVM)来实现这一点。我们在这里使用同样的方式，但也可以试一下流版本。一个使用了MLlib的代码示例如下所示：

// We would prepare some earthquake tweet data and load it in LIBSVM format.

val data = MLUtils . loadLibSVMFile ( sc , "sample_earthquate_tweets.txt" )

// Split data into training (60%) and test (40%).

val splits = data . randomSplit ( Array ( 0.6 , 0.4 ) , seed = 11L )

val training = splits ( 0 ) . cache ( )

val test = splits ( 1 )

// Run training algorithm to build the model

val numIterations = 100

val model = SVMWithSGD . train ( training , numIterations )

// Clear the default threshold.

model . clearThreshold ( )

// Compute raw scores on the test set.

val scoreAndLabels = test . map { point =& gt ;

val score = model . predict ( point . features )

( score , point . label )

}

// Get evaluation metrics.

val metrics = new BinaryClassificationMetrics ( scoreAndLabels )

val auROC = metrics . areaUnderROC ( )

println ( "Area under ROC = " + auROC )

如果对于这个模型的预测比例满意，我们可以继续往下走，无论何时发现地震，我们都要做出反应。为了检测一个地震，我们需要在一个指定的时间窗口内（如文章中所述）有一定数量（例如密度）的正向tweets。请注意，对于带有Twitter位置服务信息的tweets来说，我们还能够从中提取地震的位置信息。有了这个只是以后，我们可以使用SparkSQL来查询现有的Hive表（保存那些对接收地震通知感兴趣的用户）来获取用户的邮箱地址，并向他们发送一些个性化的警告邮件，如下所示：

// sc is an existing SparkContext.

val sqlContext = new org . apache . spark . sql . hive . HiveContext ( sc )

// sendEmail is a custom function

sqlContext . sql ( "FROM earthquake_warning_users SELECT firstName, lastName, city, email" )

. collect ( ) . foreach ( sendEmail )

1.实战文档如下

Spark下载

为了方便，我直接是进入到了/usr/ src 文件夹下面进行下载 spark-2. 1 . 1

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

Spark安装之前的准备

文件的解压与改名

tar -zxf spark-2. 1 . 1 -bin-hadoop2.7.tgz

rm -rf spark-2. 1 . 1 -bin-hadoop2.7.tgz

为了我后面方便配置 spark ，在这里我把文件夹的名字给改了

mv spark-2. 1 . 1 -bin-hadoop2.7 spark-2. 1 . 1

配置环境变量

vi /etc/ profile

在最尾巴加入

export SPARK_HOME=/usr/ src /spark-2. 1 . 1

export PATH= $PATH : $SPARK_HOME /bin

技术分享 650) this.width=650;" title="2017-09-29_124448.png" src="/upload/getfiles/default/2022/11/4/20221104093240329.jpg" />

配置Spark环境

打开 spark-2.1.1 文件夹

cd spark-2.1.1

此处需要配置的文件为两个
spark-env.sh 和 slaves

技术分享 650) this.width=650;" title="2017-09-29_124648.png" src="/upload/getfiles/default/2022/11/4/20221104093240968.jpg" />

首先我们把缓存的文件 spark-env.sh.template 改为 spark 识别的文件 spark-env.sh

cp conf/spark-env.sh. template conf /spark-env.sh

修改 spark-env.sh 文件

vi conf/spark-env.sh

注意！变量按照个人条件情况路径配置

在最尾巴加入

export JAVA_HOME= /usr/ java/jdk1 .7.0 _141

export SCALA_HOME= /usr/ scala -2.1.1

export HADOOP_HOME= /usr/ local/hadoop -2.7.2

export HADOOP_CONF_DIR= /usr/ local/hadoop -2.7.2 /etc/hadoop

export SPARK_MASTER_IP=SparkMaster

export SPARK_WORKER_MEMORY= 4 g

export SPARK_WORKER_CORES= 2

export SPARK_WORKER_INSTANCES= 1

变量说明

JAVA_HOME：Java安装目录
SCALA_HOME：Scala安装目录
HADOOP_HOME：hadoop安装目录
HADOOP_CONF_DIR：hadoop集群的配置文件的目录
SPARK_MASTER_IP：spark集群的Master节点的ip地址
SPARK_WORKER_MEMORY：每个worker节点能够最大分配给exectors的内存大小
SPARK_WORKER_CORES：每个worker节点所占有的CPU核数目
SPARK_WORKER_INSTANCES：每台机器上开启的worker节点的数目

修改 slaves 文件

vi conf/slaves 或者

技术分享 650) this.width=650;" title="2017-09-29_125207.png" src="/upload/getfiles/default/2022/11/4/20221104093241265.jpg" />

在最后面修成为

SparkWorker1

SparkWorker2

技术分享 650) this.width=650;" title="2017-09-29_125429.png" src="/upload/getfiles/default/2022/11/4/20221104093241492.jpg" />

注意！如果是dan台PC可以不用同步rsync

同步 SparkWorker1 和 SparkWorker2 的配置

在此我们使用 rsync 命令

rsync -av /usr/src /spark-2.1.1/ SparkWorker1:/usr/src /spark-2.1.1/

rsync -av /usr/src /spark-2.1.1/ SparkWorker2:/usr/src /spark-2.1.1/

启动 Spark 集群

因为我们只需要使用 hadoop 的 HDFS 文件系统，所以我们并不用把 hadoop 全部功能都启动。

启动 hadoop 的 HDFS 文件系统

start-dfs.sh

但是在此会遇到一个情况，就是使用 start-dfs.sh ，启动之后，在 SparkMaster 已经启动了 namenode ，但在 SparkWorker1 和 SparkWorker2 都没有启动了 datanode ，这里的原因是： datanode 的 clusterID 和 namenode 的 clusterID 不匹配。是因为 SparkMaster 多次使用了 hadoop namenode -format 格式化了。

==解决的办法：==

在 SparkMaster 使用

cat /usr/src /hadoop -2.7.2/hdfs/ name /current/ VERSION

查看 clusterID ，并将其复制。

技术分享 650) this.width=650;" title="2017-09-29_125958.png" src="/upload/getfiles/default/2022/11/4/20221104093241954.jpg" />

在 SparkWorker1 和 SparkWorker2 上使用

vi /usr/src /hadoop -2.7.2/hdfs/ name /current/ VERSION

将里面的 clusterID ，更改成为 SparkMaster VERSION里面的 clusterID

技术分享 650) this.width=650;" title="2017-09-29_130049.png" src="/upload/getfiles/default/2022/11/4/20221104093242328.jpg" />

做了以上两步之后，便可重新使用 start-dfs.sh 开启HDFS文件系统。

启动之后使用 jps 命令可以查看到 SparkMaster 已经启动了 namenode ， SparkWorker1 和 SparkWorker2 都启动了 datanode ，说明 hadoop 的 HDFS 文件系统已经启动了。

启动`Spark`

因为hadoop/sbin以及spark/sbin均配置到了系统的环境中，它们同一个文件夹下存在同样的start-all.sh文件。最好是打开spark-2.2.0，在文件夹下面打开该文件。

./sbin/start-all.sh

成功打开 Spark 集群之后可以进入 Spark 的 WebUI 界面，可以通过

SparkMaster_IP:8080 例：192.168.1.186:8080

技术分享 650) this.width=650;" title="2017-09-29_130536.png" src="/upload/getfiles/default/2022/11/4/20221104093242662.jpg" />

访问，可见有两个正在运行的Worker节点。

技术分享 650) this.width=650;" title="2017-09-29_130358.png" src="/upload/getfiles/default/2022/11/4/20221104093243103.jpg" />

打开 Spark-shell

使用

spark-shell and ./bin/spark-shell

技术分享 650) this.width=650;" title="2017-09-29_130750.png" src="/upload/getfiles/default/2022/11/4/20221104093243449.jpg" />

便可打开 Spark 的 shell

同时，因为 shell 在运行，我们也可以通过

SparkMaster_IP:4040

访问 WebUI 查看当前执行的任务。

技术分享 650) this.width=650;" title="2017-09-29_131017.png" src="/upload/getfiles/default/2022/11/4/20221104093243810.jpg" />

结言

到此我们的Spark集群就搭建完毕了。搭建spark集群原来知识网络是挺庞大的，涉及到Linux基本操作，设计到ssh，设计到hadoop、Scala以及真正的Spark。在此也遇到不少问题，通过翻阅书籍以及查看别人的blog得到了解决。在此感谢分享知识的人。希望自己越努力越幸运！

本文出自 “李世龙” 博客，谢绝转载！

原文：http://lwm666.blog.51cto.com/11811339/1969682

内容总结

以上是互联网集市为您收集整理的大数据实战之spark安装部署全部内容，希望文章能够帮你解决大数据实战之spark安装部署所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1062715.html

来源：【匿名】

【上一篇】大数据第41天—Mysql练习题12-游戏玩法分析-杨大伟【下一篇】phpexcel导入大数据内存溢出的解决方法有哪些

更多 ►

【大数据实战之spark安装部署】教程文章相关的互联网学习教程文章

大数据实践（九）--sqoop安装及基本操作【代码】

前置工具及环境Hadoop 2.7.3sqoop 1.4.6mysql 8mysql-connector-java-8.0.20.jarjava-json.jar一、简介Sqoop 是一个常用的数据迁移工具，主要用于在不同存储系统之间实现数据的导入与导出：导入数据：从 MySQL，Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中；导出数据：从分布式文件系统中导出数据到关系数据库中。其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移。二、安装1、解压、配...

大数据高可用集群环境安装与配置（01）——配置ntp服务【代码】

这段时间在做大数据方面的开发，使用Hadoop、HBase、Spark、Spart Streaming、Kafka、Docker、Kubernetes等等平台与组件，在服务器运维方面也在模仿着别人重复造轮子。要基于这些系统进行开发，就必须搭建一套稳定的服务器环境，虽然网上有大量的文章与教程，但在学习使用的过程中，还是踩了无数个坑，熬了不知多少个夜晚与周末，直到现在才算是真正上手，能快速搭建好平台，对出现的问题也能快速响应做出处理，当然，现在的积累还...

大数据学习记录_01_安装虚拟机【代码】【图】

第一节安装CentOS 7安装环境：VMware虚拟机中（建议入手正版软件哦）软件安装版本以及下载地址：CentOS-7-x86_64-DVD-2009.iso安装步骤1.1 创建一台虚拟机1.2 给虚拟机挂载操作系统1.3 开启虚拟机并安装操作系统install centos7直接回?运?即可在地图位置点击中国，选择时区为shanghai，点击左上?的Done按钮完成设置选择 INSTALLATION DESTINATION选择I will confifigure partitioning?定义分区，然后按左上?的蓝?Done按钮。继续...

大数据新手之路三：安装Kafka【代码】

WIN7+Ubuntu16.04+Kafka1.0.0 1.下载kafka_2.11-1.0.0.tgzhttp://kafka.apache.org/downloads 2.解压到/usr/local/kafka中 3.设置配置文件/etc/profile文件，增加kafka的路径①vi /etc/profileexport KAFKA_HOME=/usr/local/kafka export PATH=$PATH:$KAFKA_HOME/bin②让配置文件立即生效source /etc/profile 4.检查kafka环境是否生效 kafka-server-stop.sh显示No kafka server to stop 5.启动zookeeper（这里使用kafka自带的zooke...

大数据平台搭建 - cdh5.11.1 - oozie安装【代码】

一、简介oozie是hadoop平台开源的工作流调度引擎，用来管理hadoop作业，属于web应用程序，由oozie server 和oozie client构成。oozie server运行与tomcat容器中oozie的工作流必须是一个有向无环图，当用户需要执行多个关联的MapReduce作业时，只需要把作业写进workflow.xml中，再提交到oozie，oozie便可以托管服务，按照预先的配置有序执行任务。二、安装1.下载编译好的cdh版本http://archive.cloudera.com/cdh5/cdh/5/下载4.1-cdh...

CentOS7上使用源码安装物联网大数据平台TDengine【代码】

1、环境准备TDengine是涛思数据推出的一款开源的专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外，还提供缓存、数据订阅、流式计算等功能，最大程度减少研发和运维的复杂度。目前，TDengine只支持在使用systemd做进程服务管理的linux系统上安装。用which命令来检测系统中是否存在systemdwhich systemd不支持systemd命令；只能使用源码安装了。2、源码下载源码下载地址为：...

大数据任务调度工具azkaban安装的相关文档【代码】【图】

区配置：1.查看时区 2 .修改时区3 安装mysql 下载MySQL数据脚本（如下有安装MySQL服务可以忽略）下载然后解压；tar -zxvf azkaban-sql-script-2.5.0.tar.gz创建用户、分配权限并执行脚本 mysql –u root –pxxxx创建数据库: CREATE DATABASE azkaban;创建好数据库然后退出。然后将sql-script文件中的create-all-sql-2.5.0.sql中的数据表创建在刚创建好的azkaban 数据库当中。使用命令：mysql –u root –pxxxx -Dazkaban < /绝...

【原创】大数据基础之Drill（1）简介、安装及使用【代码】【图】

https://drill.apache.org/ 一简介Drill is an Apache open-source SQL query engine for Big Data exploration. Drill is designed from the ground up to support high-performance analysis on the semi-structured and rapidly evolving data coming from modern Big Data applications, while still providing the familiarity and ecosystem of ANSI SQL, the industry-standard query language. Drill provides plug-and-p...

1、CM+CDH构建企业级大数据平台部署基础环境的安装【代码】【图】

一、台安装部署前各项准备 1、安装centos7系统，这个我在vmware里面安装的，具体怎么装这里就不多讲了，我建议安装桌面版本的 2、修改静态IP地址打开终端，首先我们配置动态IP，切换到root用户输入 vim /etc/sysconfig/network-scripts/ifcfg-ens33 然后保存退出，重启网卡，再检查我们的ip地址测试一下网络没有问题现在开始配置静态ip信息 TYPE=Ethernet PROXY_METHOD=none...

计算机网络管理基础服务安装+大数据时代的网络运维【图】

使用yum方式完成服务安装 ___By Nemo（仅供参考） Notice:Apache 安装好之后，我又改回桥接模式用rpm安装了。首先，让你的虚拟机上个网，所以需要把网卡设置成nat模式，在宿主机上先拨个号，设好后重启linux系统。650) this.width=650;" height="222" src="/upload/getfiles/default/2022/11/16/20221116074856009.jpg" width="554" /> 重启后，打开firefox，看是不是能上网。Ok，但nat模式默...

大数据安装之Kafka（用于实时处理的消息队列）【图】

一、安装部署kafka1、集群规划hadoop102 hadoop103 hadoop104zk zk zkkafka kafka kafka2、jar包下载http://kafka.apache.org/downloads.html 3、集群部署1）解压安装包[test@hadoop102 software...

大数据学习3（全分布式安装）【代码】

NNSNNDNnode0001* node0002 **node0003 *node0004 * 1、环境检查：4台机器jdk安装完成date （检查时间，相差不能超过几秒，主从节点ping不通）date -s "2020-07-18 23:32:00" (4台机器设置i相同时间)cat /etc/sysconfig/network (查看4台机器别名是否设置好)cat /etc/hosts (查看ip/别名映射是否设置好 )cat /etc/sysconfig/selinux （查询安全机制文件是否关闭 SELINUX=disabled）检查防火墙是否关闭2、秘钥分...

CentOS6安装各种大数据软件第五章：Kafka集群的配置【代码】【图】

1. Kafka集群的安装准备1.1. 选择安装Kafka的版本由于kafka是scala语言编写的，基于scala的多个版本，kafka发布了多个版本。其中2.11是推荐版本。1.2. 下载并解压安装包解压文件，删除之前的的安装记录，并重命名tar -zxvf kafka_2.11-1.0.0.tgz -C /export/servers/ cd /export/servers/ rm -rf /export/servers/kafka rm -rf /export/logs/kafka/ rm -rf /export/data/kafka mv kafka_2.11-1.0.0 kafka 2. 查看目录及修改配置文件...

大数据系列之Kafka安装【代码】【图】

先简单说下安装kafka的流程。。（可配置多个zookeeper，这篇文只说一个zookeeper场景）1.环境配置：jdk1.7+ (LZ用的是jdk1.8)2.资料准备：下载 kafka_2.10-0.10.1.1.tgz ，官网链接为https://www.apache.org/dyn/closer.cgi?path=/kafka/0.10.1.1/kafka_2.10-0.10.1.1.tgz3.单机版安装步骤：　　a.将tgz放入目录： /app/ 　　b.解压：tar -xzvf kafka_2.10-0.10.1.1.tgz 　　c.修改配置：(暂时可不修改)　　d.启动zookeeper：在ka...

[大数据技术]datax的安装以及使用【代码】

1、datax简述DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。datax的开源地址：https://github.com/alibaba/DataX　　安装参考：https://www.cnblogs.com/jiangbei/p/10901201.html2、datax在windows下的简单使用步骤　　在命令提示符界面进入datax\bin目录下...

部署 - 相关标签

部署图

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...

首页 / 大数据 / 大数据实战之spark安装部署

大数据实战之spark安装部署

内容导读

内容图文

Apache Spark是什么？一个简单介绍

SparkSQL

Spark Streaming

MLlib

GraphX

如何使用Apache Spark：事件探测用例

Spark下载

Spark安装之前的准备

配置环境变量

配置Spark环境

修改 spark-env.sh 文件

修改 slaves 文件

注意！如果是dan台PC可以不用同步rsync

同步 SparkWorker1 和 SparkWorker2 的配置

启动 Spark 集群

因为我们只需要使用 hadoop 的 HDFS 文件系统，所以我们并不用把 hadoop 全部功能都启动。

启动 hadoop 的 HDFS 文件系统

启动Spark

打开 Spark-shell

结言

内容总结

内容备注

内容手机端

【大数据实战之spark安装部署】教程文章相关的互联网学习教程文章

安装 - 相关标签

部署 - 相关标签

数据 - 相关标签

大数据 - 最新教程

大数据 - 最热教程

启动`Spark`