Hadoop小型集群搭建记录

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop小型集群搭建记录，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4268字，纯文字阅读大概需要7分钟。

内容图文

环境准备

ps: 后面又加开了一个datanode,配置同下

设置hostname

        hostnamectl set-hostname hadoop-xx

设置hosts

服务器1

                echo "<server_2_ip> <server_2_domain>" >> /etc/hosts

服务器2

                echo "<server_1_ip> <server_1_domain>" >> /etc/hosts

设置防火墙端口

        # namenode
firewall-cmd --add-port=9870/tcp --zone=public --permanent
firewall-cmd --add-port=9000/tcp --zone=public --permanent
# resourcemanager
firewall-cmd --add-port=8088/tcp --zone=public --permanent
firewall-cmd --add-port=8030/tcp --zone=public --permanent
firewall-cmd --add-port=8031/tcp --zone=public --permanent
firewall-cmd --add-port=8032/tcp --zone=public --permanent
firewall-cmd --add-port=8033/tcp --zone=public --permanent

设置Ali云安全组

端口同防火墙略

创建用户hadoop

        # 创建用户hadoop
adduser hadoop
# 设置密码
passwd hadoop

切换用户到hadoop

        # 切换用户
su hadoop
# 进入用户目录
cd

准备访问公钥

        ssh-keygen -t rsa -C ‘hello hadoop!‘
cat ~/.ssh/<key_name>.pub >> ~/.ssh/authorized_keys

同步公钥

服务器1

                ssh hadoop@<server_2_ip> "cat >> ~/.ssh/authorized_keys" < ~/.ssh/id_rsa.pub

服务器2

                ssh hadoop@<server_1_ip> "cat >> ~/.ssh/authorized_keys" < ~/.ssh/id_rsa.pub

编辑ssh权限

        chmod 700 .ssh/
chmod 600 .ssh/*

测试连通性

服务器1

                ssh hadoop@<server_2_ip>

服务器2

                ssh hadoop@<server_1_ip>

两个服务器均可以直接登录对方，则代表ssh部分配置成功

Java准备

下载AdoptOpenJDK与解压

        # 下载
wget https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/11/jdk/x64/linux/OpenJDK11U-jdk_x64_linux_hotspot_11.0.10_9.tar.gz
# 解压
tar -zxf OpenJDK11U-jdk_x64_linux_hotspot_11.0.10_9.tar.gz
# 配置环境变量
cat << EOF >> .bashrc 
export JAVA_HOME=/home/hadoop/jdk-11.0.10+9
export PATH=\$PATH:\$JAVA_HOME/bin
EOF
# 刷新
source .baserc

同步其他服务

        # 下载
scp OpenJDK11U-jdk_x64_linux_hotspot_11.0.10_9.tar.gz hadoop@<server_ip>:/home/hadoopOpenJDK11U-jdk_x64_linux_hotspot_11.0.10_9.tar.gz
# 解压
ssh hadoop@<server_ip> "tar -zxf OpenJDK11U-jdk_x64_linux_hotspot_11.0.10_9.tar.gz"
# 配置环境变量
ssh hadoop@<server_ip> "cat << EOF >> .bashrc
export JAVA_HOME=/home/hadoop/jdk-11.0.10+9
export PATH=\\\$PATH:\\\$JAVA_HOME/bin
EOF
"

验证

        # 验证
java -version

这里基于局域网操作,主要有两个好处

我这里使用的是阿里ECS服务,同一内网传输速度可达100MB/s

减少镜像服务器压力~

Hadoop准备

下载与解压Hadoop-基于清华镜像

        # 下载
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
# 解压
tar -zxf hadoop-3.3.0.tar.gz
# 配置环境变量
cat << EOF >> .bashrc 
export HADOOP_HOME=/home/hadoop/hadoop-3.3.0
export PATH=\$PATH:\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin
EOF

同步其他服务

        # 传输
scp hadoop-3.3.0.tar.gz hadoop@<other_server_ip>:/home/hadoop
# 解压
ssh hadoop@<other_server_ip> "tar -zxf hadoop-3.3.0.tar.gz"
# 配置环境变量
ssh hadoop@<other_server_ip> "cat << EOF >> .bashrc
export HADOOP_HOME=/home/hadoop/hadoop-3.3.0
export PATH=\\\$PATH:\\\$HADOOP_HOME/bin:\\\$HADOOP_HOME/sbin
EOF
"

同Java准备

Hadoop配置

这里只进行简单的配置,使用VSCode和Remote插件,直接进行远程编辑.下面贴出具体配置

各文件配置

暂时略过,需要合并几个服务上的文件

启动所有节点

启动namenode

登陆hadoop@<server_01_ip>并执行下列命令

                # 格式化namenode
hfds namenode -format
hfds --daemon start namenode
# 启动namenode

访问 <server_01_ip>:9870
现在就能直接看到hadoop的web页面了

启动datanode

登陆hadoop@<server_02_ip>并执行下列命令

                hfds --daemon start datanode

访问 <server_01_ip>:9870
可以在Datanodes页面中看到刚刚启动的server_02_datanode

启动resourcemanager

登陆hadoop@<server_01_ip>并执行下列命令

                yarn --daemon start resourcemanager

访问 <server_01_ip>:8088
现在就能直接看到resourcemanager的web页面了

启动nodemanager

登陆hadoop@<server_02_ip>并执行下列命令

                yarn --daemon start nodemanager

访问 <server_01_ip>:8088
可以在Nodes中看到刚刚启动的server_02_nodemanager了

运行一个程序

登陆hadoop@<server_01_ip>并执行下列命令

        # 创建用户文件夹
hadoop fs -mkdir /user
hadoop fs -mkdir /user/hadoop
# 创建存放测试文件的文件夹
hadoop fs -mkdir input_01
# 将测试文件上传到hadoop中
hadoop fs -put test.txt

部分坑

Ali云特有

使用hadoop jar提交任务时,命令行长时间没有反应.同时resourcemanager日志可以观察到大量的未知host报错.
原因: resourcemanager无法通过主机名访问nodemanager.
解决方案: 在Ali云ECS控制台中直接修改主机名
备注: 目前暂时不知道为什么会出现这个现象,即使使用命令设置hostname.在hadoop中的datanode的hostname依然是一串随机字符串,而这个字符串就是Ali云ECS控制台中显示的的主机名.我目前也没有能够直接在linux中获取到这个错误的主机名.且尚不知hadoop是如何获取的

其他

执行应用时,两台datanode所属ECS完全卡死.无法登陆,无法操作.Ali云控制台也无法重启
原因: 提交应用后,两个nodemanager分别创建了6个容器,导致ECS资源完全耗尽
解决方案: 设置yarn.nodemanager.resource.cpu-vcores与yarn.nodemanager.resource.memory-mb为ECS实际规格,并重新运行nodemanager即可

参考

未知hostname问题的解决

原文：https://www.cnblogs.com/heaven-elegy/p/14358501.html

内容总结

以上是互联网集市为您收集整理的Hadoop小型集群搭建记录全部内容，希望文章能够帮你解决Hadoop小型集群搭建记录所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1065669.html

来源：【匿名】

【上一篇】Hadoop Balancer源码解读【下一篇】php能用hadoop吗

更多 ►

【Hadoop小型集群搭建记录】教程文章相关的互联网学习教程文章

CDH5包下载：http://archive.cloudera.com/cdh5/主机规划：IPHost部署模块进程192.168.107.82Hadoop-NN-01NameNodeResourceManagerNameNodeDFSZKFailoverControllerResourceManager192.168.107.83Hadoop-DN-01Zookeeper-01DataNodeNodeManagerZookeeperDataNodeNodeManagerJournalNodeQuorumPeerMain192.168.107.84Hadoop-DN-02Zookeeper-02DataNodeNodeManagerZookeeperDataNodeNodeManagerJournalNodeQuorumPeerMain各个进程解释...

应对Hadoop集群数据疯长，这里祭出了4个治理对策！【图】

一、背景在目前规模比较大的互联网公司中，总数据量能达到10PB甚至几十PB数据量的公司，我认为中国已经有超过了20家了。而在这些公司中，也有很多家公司的日数据增长达到100TB+ 了。所以我们每天都要观察集群的数据增长，观察是否有哪一天、哪个路径增长过猛了，是否增长了很多垃圾数据；继续深挖下去，看看是不是可以删掉无用的数据。此外我们还要做“容量预估“，把未来的数据增长规划出来，主要是依靠数据增长斜率计算出未来一...

搭Hadoop集群时，配置SSH免密登录【代码】

Hadoop集群采用SSH免密码登录的形式进行通信，需要事先配置免密码认证。CentOS 7操作系统中默认已经安装了SSH，本书中仅介绍SSH免密码登录配置。在配置SSH时使用Xshell分别登陆6个服务器节点，并进行SSH配置。(1)生成公钥SSH目录在/etc，目录下ssh-keygen -t rsa (提示：生成的认证秘钥并非只有rsa还有一个是dsa)，连续敲3个回车就行了，不用输入密码。[hadoop@sys01 ~]$ ssh-keygen -t rsa Generating public/private rsa key pai...

集群配置虚拟主机及部署Hadoop集群碰到的问题【代码】【图】

配置集群方案Ubuntu下的配置apache虚拟主机方案:对其中的Master节点配置虚拟主机，可以通过Chrome浏览器访问目录。安装虚拟主机之前，先安装Apache2sudo apt-get install apache2再安装php5sudo apt-get install php5然后，进入 /etc/apache2/sites-available文件夹，添加”*.conf”文件往该文件里写入<VirtualHost *:80>ServerName author.xxx.comServerAdmin author.xxx.comDocumentRoot "/home/author"<Directory "/home/au...

集群hadoop ubuntu版【代码】【图】

搭建ubuntu版hadoop集群用到的工具：VMware、hadoop-2.7.2.tar、jdk-8u65-linux-x64.tar、ubuntu-16.04-desktop-amd64.iso 1、在VMware上安装ubuntu-16.04-desktop-amd64.iso 单击“创建虚拟机”è选择“典型（推荐安装）”è单击“下一步” è点击完成修改/etc/hostname vim hostname 保存退出修改etc/hosts 127.0.0.1 localhost 192.168.1.100 s100 192.168.1.101 s101 192.168.1.102 s102 192.168.1.103 ...

windows下eclipse远程连接hadoop集群开发mapreduce【代码】【图】

转载请注明出处，谢谢2017-10-22 17:14:09 之前都是用python开发maprduce程序的，今天试了在windows下通过eclipse java开发，在开发前先搭建开发环境。在此，总结这个过程，希望能够帮助有需要的朋友。用Hadoop eclipse plugin，可以浏览管理HDFS，自动创建MR程序的模板文件，最爽的就是可以直接Run on hadoop。1、安装插件下载hadoop-eclipse-plugin-1.2.1.jar，并把它放到 F:\eclipse\plugins 目录下。 2、插件配置与使用2.1指定...

Hadoop集群硬盘故障分析与自动化修复【图】

作者：Zhang, Haohao摘要：硬盘在服务器中起着至关重要的作用，因为硬盘里面存储的是数据，随着制造业技术的提高，硬盘的类型也在逐渐的改变。对于硬盘的管理是IAAS部门的责任，但作为业务运维也需要懂得相关的技术。有的公司采用LVM来管理硬盘，这样做方便扩缩容，也有的公司直接用裸盘来存数据，这样做的好处是不会因LVM而损失掉一部分硬盘I/O速度。需要根据不同的场景采用不同的方式来管理。Hadoop集群中跑Datanode服务的节点不...

使用Docker在本地搭建Hadoop分布式集群

学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好的。更多详情，猛戳这...

流式大数据计算实践（2）----Hadoop集群和Zookeeper【代码】【图】

一、前言1、上一文搭建好了Hadoop单机模式，这一文继续搭建Hadoop集群二、搭建Hadoop集群1、根据上文的流程得到两台单机模式的机器，并保证两台单机模式正常启动，记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动，启动完毕后再改回来2、清空数据，首先把运行单机模式后生成的数据全部清理掉rm -rf /work/hadoop/nn/currentrm -rf /work/hadoop/dn/currenthdfs namenode -format3、启动集群（1）storm1作为n...

Hadoop集群安装部署(VMware)【图】

一、hadoop版本介绍不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称　CDH）、Hortonworks版本(Hortonworks Data Platform，简称“HDP”），对于国内而言，绝大多数选择CDH版本。　　Cloudera的CDH和Apache的Hadoop对应关系：　　CDH的两个系列版本分别是CDH3和CDH4，CDH3对应Hadoop 1.0...

Hadoop1.2.1 完全分布式集群搭建实操笔记

前期准备工作： 1.修改Linux主机名：/etc/hostname ubuntu系统：vi /etc/hostname 将ubuntu默认的主机名ubuntu改为suh01 2.修改IP：/etc/network/interfaces 修改配置文件/etc/network/interfaces vi /etc/network/interfaces #将原来的内容注释掉： #auto lo ...

Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统【代码】【图】

前言　　我们知道HDFS集群中，所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢？这就是我今天分享的内容了一、HDFS中数据块概述1.1、HDFS集群中数据块存放位置　　我们知道hadoop集群遵循的是主/从的架构，namenode很多时候都不作为文件的读写操作，只负责任务的调度和掌握数据块在哪些datanode的分布，　　保存的是一些数据结构，是namespace或者类似索引之类的东西，真正的数据存储和对数据的读写是...

hadoop分布式集群环境搭建【图】

参考 http://www.cnblogs.com/zhijianliutang/p/5736103.html 1 wget http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz2 解压 tar -zxvf hadoop-2.9.2.tar.gz3 配置环境变量 vim /etc/profile　　export HADOOP_HOME=/usr/hadoop-2.9.2　　export PATH=$PATH:$HADOOP_HOME/bin4 验证 $ hadoop version 配置ssh无密登录。。。。原文：https://www.cnblogs.com/syscn/p/10138750.html

docker中搭建分布式hadoop集群【代码】

1、pull Ubuntu镜像配置Java环境2、下载hadoop软件包3、配置JAVA_HOME（hadoop-env.sh、mapred-env.sh、yarn-env.sh）4、配置core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://127.17.0.5:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/root/data/tmp</value></property></configuration>5、配置hdfs-site.xml<configuration><property><name>dfs.namenode.secondary....

Hadoop集群启动之后,datanode节点未正常启动的问题【图】

Hadoop集群启动之后,用JPS命令查看进程发现datanode节点上,只有TaskTracker进程.如下图所示master的进程:两个slave的节点进程发现salve节点上竟然没有datanode进程.查看了日志,发现有这样一句话: 这句话的意思是:datanode上的data目录权限是765,而期望权限是755,所以使用chmod 755 data命令,将目录权限改为755.再次重启hadoop集群,发现datanode节点已经正常启动.原文：http://www.cnblogs.com/Cilimer/p/4055622.html

集群 - 相关标签

集群服务器集群技术集群软件

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop小型集群搭建记录

Hadoop小型集群搭建记录

内容导读

内容图文

环境准备

设置hostname

设置hosts

设置防火墙端口

设置Ali云安全组

创建用户hadoop

切换用户到hadoop

准备访问公钥

同步公钥

编辑ssh权限

测试连通性

Java准备

下载AdoptOpenJDK与解压

同步其他服务

验证

Hadoop准备

下载与解压Hadoop-基于清华镜像

同步其他服务

Hadoop配置

各文件配置

启动所有节点

启动namenode

启动datanode

启动resourcemanager

启动nodemanager

运行一个程序

部分坑

Ali云特有

其他

参考

内容总结

内容备注

内容手机端

【Hadoop小型集群搭建记录】教程文章相关的互联网学习教程文章

HADOOP - 相关标签

集群 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程