为了学习这部分的功能,我们这里的linux都是使用root用户登录的。所以每个命令的前面都有一个#符号。伪分布模式安装步骤:关闭防火墙修改ip地址修改hostname设置ssh自动登录安装JDK安装hadoop1. 关闭防火墙具体的操作过程参见博文:我用过的Linux命令--关闭防火墙2. 修改ip地址具体的操作过程参见博文:3. 修改hostname具体的操作过程参见博文:我用过的Linux命令--修改主机名原文:http://www.cnblogs.com/stemon/p/4313629.html
开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop开发环境中,从而实现了开发环境的图形界面化,降低了编程的难度。一、天降神器插件-Hadoop Eclipse Hadoop Ecl...
Hadoop有一个称为HDFS的分布式系统,全称为Hadoop Distributed Filesystem。HDFS有块(block)的概念,默认为64MB,HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元。使用块的好处在于:1. 一个文件大小可以大于集群网络中任意一个磁盘的容量,文件的所有块不需要存储在同一个磁盘上;2.简化存储管理;3.提供数据容错能力和可用性HDFS集群有2类节点:一个namenode(管理者)和多个datanode(工作者)。namenode管理文件...
随着毕业设计的进行,大学四年正式进入尾声。任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定。无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力,好好做。正是因为选题和hadoop有关,现在正式开始学习hadoop。将笔记整理于此,希望与志同道合的朋友共同交流。 作者:itRed 邮箱:it_red@sina.com个人博客链接:http://www.cnblogs.com/itred 好了,废话不多...
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右...
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是...
第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记可监控和显示集群中节点的各种状态信息,如CPU/内存、磁盘利用率,IO负载,网络流量等。ganglia可将历史数据以曲线形式非常友好地以php页面形式展现,本身有很好的扩展性,允许用户加入自己想监控的信息。要监控特殊信息时方便。下图是ganglia架构图: ganglia包含几个部分,这几个部分间通信是通过xdl或xml格式传递监控数据。集群中的节点会运行gmond收集节点状态...
一、hadoop fs1、创建目录[root@master hadoop-2.7.0]# hadoop fs -mkdir /testdir1
[root@master hadoop-2.7.0]# hadoop fs -ls /
Found 2 items
drwxr-xr-x - root supergroup 02018-05-0711:27 /test
drwxr-xr-x - root supergroup 02018-05-1809:27 /testdir1加 -p 则创建多级目录[root@master hadoop-2.7.0]# hadoop fs -mkdir -p /aa/bb/cc
[root@master hadoop-2.7.0]# hadoop fs -ls /
Found 3 item...
前言 大数据实在是太热,一直对新技术充满着向往,其实hadoop也不是新技术,已经好几年了。打算学习,一下hadoop整个生态圈的内容。这篇文章介绍一下环境搭建,自己搭环境摸索了好几天连着,终于搭建完成,记录一下。并share一下,如果哪天你也需要,大家一起共勉。在这希望...
Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver)。同时,这台主机,我们就用第一章中搭建好的环境来。 我们采用与第一章中相似的步骤来操作: 运行环境搭建 在前面,我们知道,运行hadoo...
NameNodeHttpServer启动源码剖析,这一部分主要按以下步骤进行: 一、源码调用分析 二、伪代码调用流程梳理 三、http server服务流程图解第一步,源码调用分析 前一篇文章已经锁定到了NameNode.java类文件,搜索找到main(),可以看到代码只有寥寥几行,再筛除掉一些参数校验以及try-catch逻辑代码, 剩下的核心的代码甚至只有两行,如下: 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...
一、Hive:一个牛逼的数据仓库1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer...
1. Hadoop 最出名的是 MapReduce和 HDFS,不过也有很多其他有用的子项目。 技术栈如下: Core 一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构)Avro 一种提供高效、跨语言RPC的数据序列系统,持久化数据存储。MapReduce 分布式数据处理模式和执行环境,运行于大型商用机集群。HDFS 分布式文件系统,运行于大型商用机集群。Pig 一种数据流语言和运行环境,用以检索非常大的数据集。...
搭建为伪分布式Hadoop环境1、宿主机(Windows)与客户机(安装在虚拟机中的Linux)网络连接。a) Host-only 宿主机与客户机单独组网;好处:网络隔离;坏处:虚拟机和其他服务器之间不能通讯;b) Bridge 桥接 宿主机与客户机在同一个局域网中。好处:窦在同一个局域网,可以互相访问;坏处:不完全。2、Hadoop的为分布式安装步骤a) 设置静态IP在centos下左面上右上角图标右键修改;重启网卡service network restart;验证:执行命令i...
ZAB:ZooKeeper的Atomic Broadcast协议,能够保证发给各副本的消息顺序相同。Zookeeper使用了一种称为Zab(ZookeeperAtomic Broadcast)的协议作为其一致性复制的核心,其特点为高吞吐量、低延迟、健壮、简单,但不过分要求其扩展性。 Zookeeper的实现是有Client、Server构成,Server端提供了一个一致性复制、存储服务,Client端会提供一些具体的语义,比如分布式锁、选举算法、分布式互斥等。从存储内容来说,Server端更多的是存储...