首页 / HADOOP / Ubuntu 16下配置多节点Hadoop和Spark

Ubuntu 16下配置多节点Hadoop和Spark

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Ubuntu 16下配置多节点Hadoop和Spark，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2498字，纯文字阅读大概需要4分钟。

内容图文

记录一下配置多节点Hadoop和Spark的过程。
建立三个节点node，分别是node0，node1，node2.其中node0作为master节点。三台云虚拟机均为Ubuntu 16版本，Hadoop为3.1.4版本，Spark为2.4.7版本。

Hadoop

首先是下载和配置Hadoop.

第一步，更新软件包，安装Java

sudo apt-get update --fix-missing
sudo apt-get install openjdk-8-jdk

第二步，生成master节点ssh的公有key，并分别拷贝到所有节点的~/.ssh/authorized_keys，从而允许master和slave nodes之间通讯

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub
vim ~/.ssh/authorized_keys

第三步，在三个节点下分别下载Hadoop 3.1.4并解压缩

wget http://apache.mirrors.hoobly.com/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz
tar zvxf hadoop-3.1.4.tar.gz

第四步，修改三个节点的配置文件hadoop-3.1.4/etc/hadoop/core-site.xml，设置value为master节点的ip，这里设置为10.10.1.1.注意，三个节点均需要设置为master节点的ip.

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://10.10.1.1:9000</value>
</property>
</configuration>

第五步，分别在三个节点新建namenode和datanode文件

mkdir /mnt/data/hadoop/hadoop-3.1.4/data/namenode
mkdir /mnt/data/hadoop/hadoop-3.1.4/data/datanode

修改hadoop-3.1.4/etc/hadoop/hdfs-site.xml，并设置为刚才新建文件夹的路径

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/mnt/data/hadoop/hadoop-3.1.4/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/mnt/data/hadoop/hadoop-3.1.4/data/datanode</value>
</property>
</configuration>

第六步，hadoop-3.1.4/etc/hadoop/hadoop-env.sh，添加JAVA_HOME，可以使用如下命令查看JAVA_HOME：
update-alternatives --display java
JAVA_HOME案例路径如下：/usr/lib/jvm/java-8-openjdk-amd64/jre

接下来，分别在三个节点修改hadoop-3.1.4/etc/hadoop/workers，移除localhost并添加所有节点的ip

10.10.1.1
10.10.1.2
10.10.1.3

之后，修改环境变量

export PATH=$PATH:/mnt/data/hadoop/hadoop-3.1.4/bin
export PATH=$PATH:/mnt/data/hadoop/hadoop-3.1.4/sbin

运行Hadoop，查看是否成功

hdfs namenode -format
start-dfs.sh

Spark

下面介绍如何配置Spark，首先下载Spark

wget http://mirror.metrocast.net/apache/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz
tar zvxf spark-2.4.7-bin-hadoop2.7.tgz

接下来，修改网络配置文件，修改各个template的文件名，包括conf/slaves和conf/spark-env.sh. 在conf/slaves下移除localhost并添加所有节点的ip

mv spark-2.4.7-bin-hadoop2.7/conf/slaves.template spark-2.4.7-bin-hadoop2.7/conf/slaves
10.10.1.1
10.10.1.2
10.10.1.3

修改conf/spark-env.sh并分别设置master和slave的ip：

SPARK_MASTER_HOST=10.10.1.1
SPARK_LOCAL_IP=10.10.1.1

设置完毕后，运行Spark
spark-2.4.7-bin-hadoop2.7/sbin/start-all.sh

内容总结

以上是互联网集市为您收集整理的Ubuntu 16下配置多节点Hadoop和Spark全部内容，希望文章能够帮你解决Ubuntu 16下配置多节点Hadoop和Spark所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/935409.html

来源：【匿名】

【上一篇】CentOS 7 下 Cloudera 6.3.1 安装 Hadoop 集群【下一篇】php能用hadoop吗

更多 ►

【Ubuntu 16下配置多节点Hadoop和Spark】教程文章相关的互联网学习教程文章

集群hadoop ubuntu版【代码】【图】

搭建ubuntu版hadoop集群用到的工具：VMware、hadoop-2.7.2.tar、jdk-8u65-linux-x64.tar、ubuntu-16.04-desktop-amd64.iso 1、在VMware上安装ubuntu-16.04-desktop-amd64.iso 单击“创建虚拟机”è选择“典型（推荐安装）”è单击“下一步” è点击完成修改/etc/hostname vim hostname 保存退出修改etc/hosts 127.0.0.1 localhost 192.168.1.100 s100 192.168.1.101 s101 192.168.1.102 s102 192.168.1.103 ...

hadoop2.2.0源码编译（ubuntu下）

??操作系统： Ubuntu 12.04 64-bit说明：这里接上篇源码导入eclipse，已经配置好java、maven，可能部分插件也已安装，编译过程如果失败，根据提示查找需要软件即可。1. 安装编译依赖类库 sudo apt-get install gcc sudo apt-get install build-essential sudo apt-get install libssl-dev sudo apt-get install zlib1g-dev sudo apt-get install libglib2.0-dev2. 安装jdk http://openjdk.java.net/install sudo apt-get install ...

Hadoop安装（Ubuntu Kylin 14.04）【代码】【图】

安装环境：ubuntu kylin 14.04 haoop-1.2.1 hadoop下载地址：http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/1.安装JDK，这里要注意的是：要想在hadoop中使用，则需要在hadoop下输入命令：source /etc/profile 来实现，然后用java -version 测试看看是否生效了。2.创建hadoop用户和用户组（切换到root）创建hadoop用户组 sudo addgroup hadoop创建hadoop用户 sudo adduser -ingroup hadoop hadoop给hadoop用户...

Ubuntu上使用Hadoop 2.x 十二 HDFS Cluster HA QJM和Federation联合使用【图】

扩展性和容错的解决方案现在已经有了Federation集群，这样就能提供Hadoop大集群的解决方案。不过对于单个namenode server，还是需要HA QJM来提供单点故障的解决方案，使得其可以自动的故障切换。之前我已经有了两个namenode1和namenode2 server，分别用于管理两个namespace。现在把它们看成active machine, 并clone出两个虚拟机，作为它们的standby machine.同时QJM需要至少3个JournalNodes，为了省机器，就用datanode1, datanode2...

ubuntu下hadoop0.20.2报错/dfs/name is in an inconsistent state【代码】【图】

Hadoop0.20.2在关机重启后，namenode启动报错：用bin/hadoop namenode -format重新格式化一下就好了。这个问题已经出现了两次。每次都格式化，显然不是一个专业的解决办法。经查询，发现是因为临时文件夹/tmp会被删除，解决方法就是在core-site.xml中添加hadoop.tmp.dir属性： <property><name>hadoop.tmp.dir</name><value>/opt/Hadoop-0.20.2/tmp/hadoop-${user.name}</value></property> 原文：https://www.cnblogs.com/S...

分散式-ubuntu12.04安装hadoop1.2.1

在hadoop1.2.1被预装在一份报告中安装说明java。我装了很多的版本号java以及许多的版本号hadoop，然后发现oracle-java7与hadoop1.2.1能够匹配。一，安装详细过程例如以下：1. 安装java： sudo apt-get install oracle-java7-installer2. 安装hadoop1.2.1： http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html#Download二。測试是否成功安装（伪分布式模式）：Format a new distributed-filesystem: $ bin/hadoop nameno...

ubuntu从头开始搭建hadoop伪分布式环境【代码】

13年学习过一段时间的hadoop，但是工作中用到的地方比较少，有些生疏，加上现在hadoop版本也已经比较新了，所以空闲时间想继续学习一下，找到这篇文章，从头开始搭建一个hadoop环境，转过来备忘 Hadoop developers usually test their scripts and code on a pseudo-distributed environment(also known as a single node setup), which is a virtual machine that runs all of the Hadoop daemons simultaneously on a single ma...

ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建【代码】【图】

ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建集群规划：hostnameNameNodeDataNodeJournalNodeResourceManagerZookeepernode01√√√node02√√node03√√√√node04√√√node05√√√准备工作:首先克隆5台ubuntu虚拟机vim /etc/netplan/01-network-manager-all.yaml修改网络配置我的5台网络配置如下： (ps: 由于这次是家里台式, 所以网关和之前笔记本搭的那次不一样)# Let NetworkManager manage all devic...

Ubuntu 14.10 下Hadoop HttpFS 配置【代码】

因为hadoop集群中需要配置一个图形化管理数据的截面，后来找到HUE，那么在配置HUE的过程中，发现需要配置httpfs，因为配置了httpfs，hue才能去操作hdfs中的数据。　　HttpFs能干啥呢，它可以使你能在浏览器中管理HDFS上的文件，例如在HUE中；它还提供了一套REST风格的API用来管理HDFS1 集群环境Ubuntu-14.10openjdk-7hadoop-2.6.0 HA(双NN)hue-3.8.1（development）2 安装因为hadoop中自带了httpfs所以，这里不需要下载其他包，只需...

ubuntu14.04安装hadoop2.7.1伪分布式和错误解决

ubuntu14.04安装hadoop2.7.1伪分布式和错误解决需要说明的是我下载的是源码，通过编译源码并安装一、需要准备的软件：1.JDK和GCC 设置JAVA_HOME： vim ~/.bashrc 在最后增加：export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_31，保存退出。使设置立即生效：source ~/.bashrc 测试JAVA_HOME是否设置成功，输出了上面设置的路径表示成功： echo $JAVA_HOME2.安装maven 解压 tar -zxvf apache-ma...

Ubuntu14（64位）集群环境下安装Hadoop2.4【图】

经过前边的积累，今天终于实现了集群环境下部署Hadoop，并成功运行了官方的例子。工作如下：两台机器：NameNode：上网小本，3G内存，机器名：YP-X100e，IP：192.168.101.130。DataNode：虚拟机，Win7下载VMWare10中虚拟Ubuntu14，虚拟机器名：ph-v370，IP：192.168.101.110确保可互相ping通，按照机器名和IP配置各自机器的/etc/hosts文件和/etc/hostname文件，我的hosts配置内容如下127.0.0.1 localhost 192.168.101.130 YP-X100e ...

Ubuntu环境下手动配置Hadoop【代码】

配置Hadoop前提时已经配置过JDK和SSH（如何配置JDK：http://www.cnblogs.com/xxx0624/p/4164744.html）（如何配置SSH：http://www.cnblogs.com/xxx0624/p/4165252.html） 1. 添加Hadoop用户sudo addgroup hadoop sudo adduser --ingroup hadoop hadoopsudo usermod -aG admin hadoop 2. 下载Hadoop文件（例：Hadoop1.2.1，我放的时/home/xxx0624/hadoop）sudo tar -zxzf hadoop-1.2.1.tar.gz sudo mv hadoop-1.2.1 /home/xxx06...

【常用配置】Hadoop-2.6.5在Ubuntu14.04下的伪分布式配置【代码】

core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/tmp</value><description>abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>hdfs-site.xml<?xml version="...

Hadoop单机模式安装入门（Ubuntu系统）【图】

闲来无事，突然看到关于Hadoop集群。以前也了解过，网上找过一些关于百度，谷歌等底层hadoop集群的文档，可是面对很多陌生的技术，看不太通透。所有想自己动手虚拟机试试。经常听到这么高大上的名词，Hadoop已经成为大数据的代名词。短短几年间，Hadoop从一种边缘技术成为事实上的标准。而另一方面，MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候，谷歌好像早已进入到了下一个时代。Hadoop支持三种启动集群模式，分别是单...

install hadoop on xubuntu【代码】【图】

0. install xubuntuwe recommend to set username as "hadoop"after installation, set user "hadoop" as administratorsudo addgroup hadoop sudo adduser --ingroup hadoop hadoop 打开/etc/sudoers文件sudo gedit /etc/sudoers 在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL 1. install java1.解压java压缩包到usr/java(新建的文件夹)中。解压后就可使用2.配置环境变量。如下在etc/profile 文件中。在最后...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Ubuntu 16下配置多节点Hadoop和Spark

Ubuntu 16下配置多节点Hadoop和Spark

内容导读

内容图文

Hadoop

Spark

内容总结

内容备注

内容手机端

【Ubuntu 16下配置多节点Hadoop和Spark】教程文章相关的互联网学习教程文章

集群hadoop ubuntu版【代码】【图】

hadoop2.2.0源码编译（ubuntu下）

Hadoop安装（Ubuntu Kylin 14.04）【代码】【图】

Ubuntu上使用Hadoop 2.x 十二 HDFS Cluster HA QJM和Federation联合使用【图】

ubuntu下hadoop0.20.2报错/dfs/name is in an inconsistent state【代码】【图】

分散式-ubuntu12.04安装hadoop1.2.1

ubuntu从头开始搭建hadoop伪分布式环境【代码】

ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建【代码】【图】

Ubuntu 14.10 下Hadoop HttpFS 配置【代码】

ubuntu14.04安装hadoop2.7.1伪分布式和错误解决

Ubuntu14（64位）集群环境下安装Hadoop2.4【图】

Ubuntu环境下手动配置Hadoop【代码】

【常用配置】Hadoop-2.6.5在Ubuntu14.04下的伪分布式配置【代码】

Hadoop单机模式安装入门（Ubuntu系统）【图】

install hadoop on xubuntu【代码】【图】

UBUNTU - 相关标签

HADOOP - 相关标签

配置 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程