首页 / HADOOP / Docker和hadoop

Docker和hadoop

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Docker和hadoop，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1967字，纯文字阅读大概需要3分钟。

内容图文

Docker很热，怎么形容？感觉开源除了spark技术，就是docker了，甚至把Go语言也带火了，把Go在TIOBE的排名从百名外带入主流语言的行列。

Docker快成救世主了，这么牛逼的技术，docker和hadoop碰撞出什么火花来呢，是不是得赶紧用上呢？

就不介绍具体什么是docker了，不是一门全新的技术，是基于LXC的高级容器引擎，从linux内核发展出来的轻量隔离技术。相比单纯的隔离，核心是标准化了镜像打包，部署和发布这个过程，相当于标准化了开发过程。就运行态来说，相比VM，核心优势就是轻量，劣势也明显，安全性不足，容易攻破。下图是一个VM和容器的对比：

Docker和hadoop - 文章图片

关于LXC，google的大规模集群管理工具borg号称十年前就使用上了，使用场景就是大数据场景，而且批量/实时场景号称都支持的很好，集群资源利用率也非常高，所以照这个说起来，大数据和docker渊源很深。

Docker和hadoop - 文章图片

但是现实的情况是，docker在hadoop领域用的并不是很好。目前主流两种用法：

第一种方法是用Docker来直接运行Hadoop。例如hortonworks，收购了一家叫SequenceIQ的公司，通过叫Cloudbreak的技术，将Hortonworks Data Platform（HDP）打包成Docker镜像，好处是可以在微软Azure、亚马逊AWS、谷歌云平台等任何主流云平台上启动HDP。这种解决的是在多云平台部署的问题。但是这个公司被收购之后也没有更多的消息了。Github上的最后一次更新也在5个月之前。

Docker和hadoop - 文章图片

这个至多只是解决开发环境的问题，hadoop很难在不同的环境下，不调优而跑出一致的表现，天生的使用场景受限，价值有限。

第二种方法是通过YARN来使用Docker容器进行应用部署，yarn是支持docker的，具体可以看看：

http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html

yarn作为资源管理，由于其扩展能力，一直被压缩在了大数据领域，如果为了任务级别更高资源利用，通过FAIR调度算法足于，更强的隔离反而限制了资源的弹性使用。

当前资源调度更火是k8s（google主推，号称从borg发展而来）和mesos（伯克利大学主推）。瞄准的场景也更多的是应用级别，yarn支持docker处在一个很尴尬的地步。

综合来说，hadoop体系有自己的一套资源管理系统，要解决的问题是多个服务器并行调度起来当一个服务器使用的问题。而docker技术本质上和VM一样，是将一个服务器拆成多份给更多的应用使用。Docker和hadoop体系在云下物理机的场景非常有限，未来在云上替代VM解决弹性伸缩问题应该有发展。

内容总结

以上是互联网集市为您收集整理的Docker和hadoop全部内容，希望文章能够帮你解决Docker和hadoop所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1034139.html

来源：【匿名】

【上一篇】Hadoop企业开发场景案例，虚拟机服务器调优【下一篇】php能用hadoop吗

更多 ►

【Docker和hadoop】教程文章相关的互联网学习教程文章

使用Docker在本地搭建Hadoop分布式集群

学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好的。更多详情，猛戳这...

docker中搭建分布式hadoop集群【代码】

1、pull Ubuntu镜像配置Java环境2、下载hadoop软件包3、配置JAVA_HOME（hadoop-env.sh、mapred-env.sh、yarn-env.sh）4、配置core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://127.17.0.5:8020</value></property><property><name>hadoop.tmp.dir</name><value>/home/root/data/tmp</value></property></configuration>5、配置hdfs-site.xml<configuration><property><name>dfs.namenode.secondary....

Docker Hadoop 配置常见错误及解决办法【代码】【图】

Docker Hadoop 配置常见错误及解决办法问题1：wordcount运行卡住，hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_.... 解决如下：1. 修改mapred-site.xml配置，配置文件在Hadoop安装目录下，etc/hadoop/mapred-site.xml将以下配置<property><name>mapreduce.framework.name</name><value>yarn</value> </property>改成<property><name>mapreduce.job.tracker</name><value>hdfs://master:8001</v...

HADOOP docker(八):hadoop本地库【代码】

前言2. Native Hadoop Library3. 使用本地库4. 本地库组件5. 支持的平台6. 下载7. 编译8. 运行时观察9. 检查本地库10. 如果共享本地库小伙伴还记得每次启动hdfs就会报can‘t find native libriaries吗？今天我们就来聊聊这个~ 文档：http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html前言理论上讲，本地类指你的机器上所有"*.so"文件，这些文件在编译的时候会用到。这里只讲...

docker部署spark+hadoop+livy【代码】

python3.6为基础镜像版本，该版本linux系统为debian: FROM python:3.6ARG WORK_DIR=/optWORKDIR $WORK_DIR# java ADD jdk-8u281-linux-x64.tar.gz $WORK_DIR RUN mv jdk1.8.0_281 jdk ENV JAVA_HOME $WORK_DIR/jdk ENV JRE_HOME $JAVA_HOME/jre ENV CLASSPATH .:$JAVA_HOME/lib:$JRE_HOME/lib ENV PATH $PATH:$JAVA_HOME/bin# hadoop ADD hadoop-2.7.7.tar.gz $WORK_DIR RUN mv hadoop-2.7.7 hadoop RUN mkdir -p /home/hadoop/tm...

Docker 从零搭建 Hadoop 3.2 集群 (镜像基于Ubuntu 14.04)

前言之前在学Hadoop基础的时候，需要部署环境进行测试，其实那个时候部署遇到了不少的坑，今天突然想起来，所以跟大家分享下，让大家少踩点坑。我的Ubuntu版本是18.10 1. 安装Docker 安装Docker的话基本上没有遇到什么坑，我是按照官方文档去做的，官方文档连接如下: https://docs.docker.com/install/linux/docker-ce/ubuntu/ 下面我还是简单说说文档里面的步骤吧，如果说大家看的懂英文的就直接跳过这一part吧// 删除掉之前安装...

Docker Hadoop 配置常见错误及解决办法【代码】【图】

Docker Hadoop 配置常见错误及解决办法问题1：wordcount运行卡住，hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_.... 解决如下： 1. 修改mapred-site.xml配置，配置文件在Hadoop安装目录下，etc/hadoop/mapred-site.xml 将以下配置<property><name>mapreduce.framework.name</name><value>yarn</value> </property>改成<property><name>mapreduce.job.tracker</name><value>hdfs://master:8...

Docker环境下使用CentOS7.8配置Hadoop3.3.0完全分布式集群环境【代码】【图】

Docker环境下使用CentOS7.8配置Hadoop3.3.0完全分布式集群环境 1.首先拉取CentOS7.8镜像（笔者之前使用CentOS8进行安装但是CentOS8无法正常安装OpenSSH，折腾了好久后才使用CentOS7进行安装后可以正常安装OpenSSH） docker pull centos:centos7.8.20032.创建固定IP子网按照集群的架构，创建容器时需要设置固定IP，所以先要在docker使用如下命令创建固定IP的子网. 至于在Docker下的网络模式可以参考博客Docker网络模式详解 docker ...

Hadoop，Java，docker，mysql安装配置常见问题解决方法【图】

Hadoop，Java，docker，mysql安装配置常见问题解决方法本文是本人在学习中对一些常见问题的解决，将其解决方案总结如下，会陆续跟新。如有不对之处敬请指正，感激不尽。（如果要用到本文中一些代码，最好自己敲在文本转格式的时候，很容易出现引号问题的错误。而在Linux中引号的问题尤为常见） 1虚拟机打开界面黑屏以管理员身份进入cmd界面，输入netsh winsock reset然后回车，重启计算机。 2虚拟机密码正确无法进入图形用户界面...