hadoop伪分布式集群搭建

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hadoop伪分布式集群搭建，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8352字，纯文字阅读大概需要12分钟。

内容图文

本文步骤较多，请细心查看。

基础设施

基础设施环境如下：

jdk 1.7+（提前设置好环境变量）
ssh自己和自己之间进行免密登陆，如在layne1上执行ssh layne1
时间同步
设置本机ip
设置主机名

可参考Linux切换运行级别、关闭防火墙、禁用selinux、关闭sshd、时间同步、修改时区、拍摄快照、克隆操作、修改语言环境。

另外，不得不提Linux系统远程执行和远程登陆的区别：

远程执行：不需要用户交互，而是用户直接给出一个命令，直接在远程执行，不会加载 /etc/profile
远程登陆：返回一个交互接口，返回接口/bash 会加载/etc/profile

操作步骤

我在主机名为layne1上搭建hadoop伪分布式集群，详细步骤如下

1、配置免密钥

ssh-keygen  -t  dsa  -P  ''  -f  ~/.ssh/id_dsa
cat  ~/.ssh/id_dsa.pub  >  ~/.ssh/authorized_keys

id_dsa.pub 存放每台服务器自己的公钥
authorized_keys 存放的也是服务器的公钥，不过除了自己的公钥外，也可以存放其它服务器的公钥。

再执行ssh layne1，让其自己和自己之间进行免密登陆。

2、上传hadoop的tar包hadoop-2.6.5.tar.gz到Linux系统的/opt/apps目录下

3、解压hadoop-2.6.5.tar.gz到/opt目录

[root@layne1 apps]# tar -zxvf hadoop-2.6.5.tar.gz -C /opt

4、删除hadoop-2.6.5/share/下的doc目录，doc里面是一些页面和文档，在Linux上没用，删除以后我们把这个hadoop复制到其他服务器上速度比较快

[root@layne1 hadoop-2.6.5]# pwd
/opt/hadoop-2.6.5
[root@layne1 hadoop-2.6.5]# cd share
[root@layne1 share]# ls
doc  hadoop
[root@layne1 share]# rm -rf doc
[root@layne1 share]# ls
hadoop

5、添加hadoop环境变量

将HADOOP_HOME以及HADOOP_HOME/bin和HADOOP_HOME/sbin添加到环境变量，在/etc/profile里最后一行添加：

export HADOOP_HOME=/opt/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

再执行source /etc/profile使其立即生效。

6、hadoop-env.sh配置

由于通过SSH远程启动进程的时候默认不会加载/etc/profile设置，JAVA_HOME变量就加载不到，需要手动指定。

在/opt/hadoop-2.6.5下，输入vim ./etc/hadoop/hadoop-env.sh，找到JAVA_HOME所在的行，并改为export JAVA_HOME=/usr/java/default。

[root@layne1 hadoop-2.6.5]# pwd
/opt/hadoop-2.6.5
[root@layne1 hadoop-2.6.5]# cd ./etc/hadoop/
[root@layne1 hadoop]# vim hadoop-env.sh

hadoop伪分布式集群搭建 - 文章图片

7、配置core-site.xml

[root@layne1 hadoop]# pwd
/opt/hadoop-2.6.5/etc/hadoop
[root@layne1 hadoop]# vim core-site.xml

这个文件指定的是namenode的访问

<configuration>
  <!-- 指定访问HDFS的时候路径的默认前缀  /  hdfs://layne1:9000/ -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://layne1:9000</value>
  </property>
  <!-- 指定hadoop的临时目录位置，它会给namenode、secondarynamenode以及datanode的存储目录指定前缀 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/var/layne/hadoop/pseudo</value>
  </property>
</configuration>

配置文件拷贝后格式不美观，可以通过以下方式格式化：

在vim命令按ESC回报命令模式，把光标定位在<configuration>行首
输入Ctrl+V
按键盘上的下箭头按钮，直到<configuration/>
输入:!xmllint -format -，然后回车
删除<configuration>上一行多出的<?xml version="1.0"?>

值得一提的是，这些配置都可以在hadoop-2.6.5\share\doc\hadoop\index.html里面找到，最好用IE浏览器打开，否则可能不识别。

在windows上用IE浏览器打开hadoop-2.6.5\share\doc\hadoop\index.html，点击进入core-default.xml

hadoop伪分布式集群搭建 - 文章图片

可以看到，hadoop.tmp.dir的默认配置为/tmp/hadoop-${user.name}，即在Linux的临时文件下保存，所以我们要修改配置

hadoop伪分布式集群搭建 - 文章图片

要记住：

core-default.xml中的所有配置都可以在core-site.xml 中进行配置。
hdsf-default.xml中的所有配置都可以在hdfs-site.xml 中进行配置。

8、配置hdfs-site.xml

[root@layne1 hadoop]# pwd
/opt/hadoop-2.6.5/etc/hadoop
[root@layne1 hadoop]# vim hdfs-site.xml

加入以下内容：

<configuration>
  <!-- 指定block副本数 -->
  <property>
<name>dfs.replication</name>
<value>1</value>
  </property>
  <!-- 指定secondarynamenode所在的位置 -->
  <property>
<name>dfs.namenode.secondary.http-address</name>
<value>layne1:50090</value>
  </property>
</configuration>

9、配置slaves

这里是配置datanode结点

[root@layne1 hadoop]# pwd
/opt/hadoop-2.6.5/etc/hadoop
[root@layne1 hadoop]# vim slaves
layne1

即在slaves输入layne1。

10、格式化hadoop

下面可以看到，第7步配置的临时目录位置不存在

[root@layne1 hadoop]# ls /var/layne/hadoop/pseudo
ls: cannot access /var/layne/hadoop/pseudo: No such file or directory

现在输入

hdfs  namenode  -format

再次查看日志

[root@layne1 hadoop]# ls /var/layne/hadoop/pseudo
dfs
[root@layne1 hadoop]# cd /var/layne/hadoop/pseudo/dfs
[root@layne1 dfs]# ls
name
[root@layne1 dfs]# cd name
[root@layne1 name]# ls
current
[root@layne1 name]# cd current
[root@layne1 current]# ls
fsimage_0000000000000000000  fsimage_0000000000000000000.md5  seen_txid  VERSION
[root@layne1 current]# pwd
/var/layne/hadoop/pseudo/dfs/name/current

11、启动hadoop

输入以下命令启动hadoop

start-dfs.sh

启动过程如下：

[root@layne1 current]# start-dfs.sh
21/03/16 21:19:40 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting namenodes on [layne1]
layne1: starting namenode, logging to /opt/hadoop-2.6.5/logs/hadoop-root-namenode-layne1.out
layne1: starting datanode, logging to /opt/hadoop-2.6.5/logs/hadoop-root-datanode-layne1.out
Starting secondary namenodes [layne1]
layne1: starting secondarynamenode, logging to /opt/hadoop-2.6.5/logs/hadoop-root-secondarynamenode-layne1.out
21/03/16 21:20:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

12、查看hadoop进程

输入jps

[root@layne1 current]# jps
1623 SecondaryNameNode
1467 DataNode
1389 NameNode
1741 Jps

说明进程都正常启动了，然后网页访问：

http://layne1:50070

hadoop伪分布式集群搭建 - 文章图片

进入文件系统

hadoop伪分布式集群搭建 - 文章图片

下图可以看出，文件系统为空

hadoop伪分布式集群搭建 - 文章图片

13、上传文件

我们试着上传一个文件

[root@layne1 apps]# ll
total 387548
-rw-r--r-- 1 root root 199635269 Mar 16 19:30 hadoop-2.6.5.tar.gz
-rw-r--r-- 1 root root 179505388 Feb 23 13:34 jdk-8u221-linux-x64.rpm
-rw-r--r-- 1 root root  17699306 Feb 23 13:34 zookeeper-3.4.6.tar.gz
[root@layne1 apps]# hdfs dfs -put hadoop-2.6.5.tar.gz /
21/03/16 21:29:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

现在可以看到上传的文件

hadoop伪分布式集群搭建 - 文章图片

点击文件名称，可以看到该文件被分为两个block块，第一个block为128M（没有指定block，默认大小为128M）

hadoop伪分布式集群搭建 - 文章图片

然后，我们自己生成一个文件

[root@layne1 apps]# pwd
/opt/apps
[root@layne1 apps]# for i in `seq 100000`; do echo "hello layne $i" >> hh.txt; done

上传生成的hh.txx文件，文件block块大小为1048576字节，重复数为1：

hdfs dfs -D dfs.blocksize=1048576 -D dfs.replication=1 -put hh.txt /

再次刷新，就能看到上传的文件了。

hadoop伪分布式集群搭建 - 文章图片

从上图可以看出，刚刚上传的hh.txx文件块大小为1M，这是因为1024x1024=1048576，dfs.blocksize单位是字节，即bytes，1KB=1024bytes，所以1024x1024bytes=1048576bytes=1024KB=1M

-D dfs.replication=1指定副本数为1，如果不指定，默认按照第8步dfs.replication配置的副本数。一般来说，可以将不重要的文件的副本数设置小一点。

在上传文件时，-D dfs.blocksize和-D dfs.replication可以不指定，所以上传文件的格式为：

hdfs dfs -put 被上传的文件全路径名或相对路径名 放置的hdfs目录

比如，hdfs dfs -put test.txt /a/b，就是将当前目录下的test.txt文件，上传到hdfs的a/b目录下，这个前提是a/b目录一定要存在。

14、查看hdfs中的文件

[root@layne1 apps]# hdfs dfs -ls /
21/03/16 21:55:34 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
-rw-r--r--   1 root supergroup  199635269 2021-03-16 21:29 /hadoop-2.6.5.tar.gz
-rw-r--r--   1 root supergroup    1788895 2021-03-16 21:53 /hh.txt

当然，也可以在浏览器中查看。

15、查看hadoop存储目录

[root@layne1 dfs]# pwd
/var/layne/hadoop/pseudo/dfs
[root@layne1 dfs]# ls
data  name  namesecondary

查看生成的块

[root@layne1 subdir0]# pwd
/var/layne/hadoop/pseudo/dfs/data/current/BP-603651742-192.168.218.51-1615900416149/current/finalized/subdir0/subdir0
[root@layne1 subdir0]# ll -h
total 194M
-rw-r--r-- 1 root root 128M Mar 16 21:29 blk_1073741825
-rw-r--r-- 1 root root 1.1M Mar 16 21:29 blk_1073741825_1001.meta
-rw-r--r-- 1 root root  63M Mar 16 21:29 blk_1073741826
-rw-r--r-- 1 root root 500K Mar 16 21:29 blk_1073741826_1002.meta
-rw-r--r-- 1 root root 1.0M Mar 16 21:53 blk_1073741827
-rw-r--r-- 1 root root 8.1K Mar 16 21:53 blk_1073741827_1003.meta
-rw-r--r-- 1 root root 723K Mar 16 21:53 blk_1073741828
-rw-r--r-- 1 root root 5.7K Mar 16 21:53 blk_1073741828_1004.meta

查看datanode相关信息

[root@layne1 current]# pwd
/var/layne/hadoop/pseudo/dfs/data/current
[root@layne1 current]# cat VERSION 
#Tue Mar 16 21:20:02 CST 2021
storageID=DS-bd5deff9-13b7-4c66-bf6f-b044da77d527
clusterID=CID-18a01d3b-2057-4277-9220-3476626cd9a8
cTime=0
datanodeUuid=6e4f5a59-386e-48d2-a4dd-aa4c36b723e0
storageType=DATA_NODE
layoutVersion=-56

16、关闭hadoop

stop-dfs.sh

内容总结

以上是互联网集市为您收集整理的hadoop伪分布式集群搭建全部内容，希望文章能够帮你解决hadoop伪分布式集群搭建所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1041879.html

来源：【匿名】

【上一篇】Hadoop概述【下一篇】php能用hadoop吗

更多 ►

【hadoop伪分布式集群搭建】教程文章相关的互联网学习教程文章

一、准备：1、修改主机名vi /etc/sysconfig/network内容如下：NETWORKING=yesHOSTNAME=myHadoop2、修改主机名和IP的映射关系vi /etc/hosts192.168.127.150myHadoop3、关闭防火墙3.1、查看防火墙状态service iptables status3.2、关闭防火墙service iptables stop3.3、查看防火墙开机启动状态chkconfig iptables --list3.4、关闭防火墙开机启动chkconfig iptables off4、重启Linux：reboot/shutdown -r now二、安装JDK：1、解压：ta...

Hadoop伪分布式配置【代码】

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式.修改配置文件 core-site.xml:通过 gedit 编辑会比较方便: gedit ./etc/hadoop/core-site.xml<configuration><proper...

Hadoop 运行模式之本地&伪分布式模式【代码】【图】

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站：http://hadoop.apache.org/一、本地运行模式1、官方Grep案例1、创建在hadoop-2.7.2文件下面创建一个input文件夹 [root@centos7 hadoop2.7]# mkdir input2、将Hadoop的xml配置文件复制到input [root@centos7 hadoop2.7]# cp etc/hadoop/*.xml input3、执行share目录下的MapReduce程序 [root@centos7 hadoop2.7]# bin/hadoop jar share/hadoop/mapre...

使用Docker在本地搭建Hadoop分布式集群

学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好的。更多详情，猛戳这...

centos 6.6 hadoop 2.7.1 完全分布式安装部署【图】

1.安装前，准备三台CENTOS 6.6系统的主机或虚机,并且关闭防火墙及selinux.2.按如下表格配置IP地址，修改hosts文件及本机名192.168.199.21 hadoop21 Master102.168.199.22 hadoop22 Slave1192.168.199.23 hadoop23 Slave2650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108025206968.jpg" width="632" height="359" name="image_operate_78961438613426977" title="centos <wbr>6.6 <wbr>hadoop <wbr>2.7....

Hadoop1.2.1 完全分布式集群搭建实操笔记

前期准备工作： 1.修改Linux主机名：/etc/hostname ubuntu系统：vi /etc/hostname 将ubuntu默认的主机名ubuntu改为suh01 2.修改IP：/etc/network/interfaces 修改配置文件/etc/network/interfaces vi /etc/network/interfaces #将原来的内容注释掉： #auto lo ...

centos6.4设备hadoop-2.5.1（完全分布式）【图】

环境介绍：在这两种装备centos6.4（32位置）的server安装Hadoop-2.5.1分布式集群（2台机器，主要试验用。哈哈）。1．改动主机名和/etc/hosts文件1）改动主机名（非必要）vi /etc/sysconfig/network HOSTNAME=XXX重新启动后生效。2）/etc/hosts是ip地址和其相应主机名文件，使机器知道ip和主机名相应关系。格式例如以下：#IPAddress HostName 192.168.1.67 MasterServer 192.168.1.241 SlaveServer 2．配置免password登陆SSH1）生成...

hadoop分布式集群环境搭建【图】

参考 http://www.cnblogs.com/zhijianliutang/p/5736103.html 1 wget http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz2 解压 tar -zxvf hadoop-2.9.2.tar.gz3 配置环境变量 vim /etc/profile　　export HADOOP_HOME=/usr/hadoop-2.9.2　　export PATH=$PATH:$HADOOP_HOME/bin4 验证 $ hadoop version 配置ssh无密登录。。。。原文：https://www.cnblogs.com/syscn/p/10138750.html

hadoop2.x hdfs完全分布式 HA 搭建【代码】

官网链接 hadoop配置文件主页：http://hadoop.apache.org/docs/r2.5.2/HDFS hapdoop HA全分布配置:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html总结步骤：准备工作： 1. 配置java环境变量可以在/etc/profile 或者在/root/.bash_profile中进行配置 2. 配置免密码登录特别是namenode之间可以相互免密码登录 3. 准备zookeeper a)三台zookeeper：hadoop1，hadoop2，h...

docker中搭建分布式hadoop集群【代码】

1、pull Ubuntu镜像配置Java环境2、下载hadoop软件包3、配置JAVA_HOME（hadoop-env.sh、mapred-env.sh、yarn-env.sh）4、配置core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://127.17.0.5:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/root/data/tmp</value></property></configuration>5、配置hdfs-site.xml<configuration><property><name>dfs.namenode.secondary....

hadoop完全分布式模式的安装和配置

本文是将三台电脑用路由器搭建本地局域网，系统为centos6.5,已经实验验证，搭建成功。一、设置静态IP&修改主机名&关闭防火墙（all-root）（对三台电脑都需要进行操作）0.将三台电脑安装centos6.5系统1.设置静态ip（便于机器之间的通信，防止路由器电脑重启后，ip变化，导致不能通信）vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0 #描述网卡对应的设备别名，例如ifcfg-eth0的文件中它为eth0BOOTPROTO=static #设置网卡...

在RHEL 6.5上部署Hadoop 2.6伪分布式模式（单机）【代码】【图】

第一步：安装JAVA 1.7 此步骤略过，太简单了，可参考这个： http://blog.sina.com.cn/s/blog_6a7cdcd40101b1j6.html 第二步：创建Haddop专用用户虽然使用root用户也可以部署hadoop,但从系统安全及规范的角度考虑，还是建议大家创建专用的用户（本例中为hadoop,实际中可以是任意用户名），创建用户的命令：# useradd hadoop # passwd hadoop 创建完用户hadoop后，还要使得hadoop用户可以无密码方...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / hadoop伪分布式集群搭建

hadoop伪分布式集群搭建

内容导读

内容图文

基础设施

操作步骤

内容总结

内容备注

内容手机端

【hadoop伪分布式集群搭建】教程文章相关的互联网学习教程文章

hadoop伪分布式2.4.1安装

Hadoop伪分布式配置【代码】

Hadoop 运行模式之本地&伪分布式模式【代码】【图】

使用Docker在本地搭建Hadoop分布式集群

centos 6.6 hadoop 2.7.1 完全分布式安装部署【图】

Hadoop1.2.1 完全分布式集群搭建实操笔记

centos6.4设备hadoop-2.5.1（完全分布式）【图】

hadoop分布式集群环境搭建【图】

hadoop2.x hdfs完全分布式 HA 搭建【代码】

docker中搭建分布式hadoop集群【代码】

hadoop完全分布式模式的安装和配置

在RHEL 6.5上部署Hadoop 2.6伪分布式模式（单机）【代码】【图】

hadoop2.x 伪分布式安装 centos6.5 64位【图】

Hadoop学习笔记01——Hadoop分布式文件系统

我不是九爷带你了解 Hadoop分布式文件系统设计要点与架构【图】

HADOOP - 最新教程

HADOOP - 最热教程