【hadoop-sqoop学习笔记】教程文章相关的互联网学习教程文章

Hadoop源码学习笔记之NameNode启动流程分析三:FSNamesystem初始化源码剖析【代码】【图】

上篇内容分析了http server的启动代码,这篇文章继续从initialize()方法中按执行顺序进行分析。内容还是分为三大块:一、源码调用关系分析二、伪代码执行流程三、代码图解 一、源码调用关系分析  上一篇内容是NameNode启动http server的分析,是根据锁定NameNode的main()入口,发现了该入口仅有两行核心代码,先进入到了第一行核心代码  createNameNode()中,发现默认情况是new了一个NameNode对象。在NameNode的构造方法中,有...

HADOOP学习笔记(四):HBase【图】

HBase简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。HBase 要点① 它介于 NoSQL 和 RDBMS 之间,仅能通过主键(rowkey)和主键的 range 来检索数据② HBase 查询数据功能很简单,不支...

Hadoop学习笔记四

一、fsimage,edits和datanode的block在本地文件系统中位置的配置 fsimage:hdfs-site.xml中的dfs.namenode.name.dir 值例如file:///opt/software/hadoop/data/nn/image edits:hdfs-site.xml中的dfs.namenode.edits.dir datanode block:hdfs-site.xml中的dfs.datanode.data.dir secondarynanode的fsimage:hdfs-site.xml中的dfs.namenode.checkpoint.dir secondarynanode的edits:hdfs-site.xml中的dfs.namenod...

Hadoop学习笔记(3)hadoop伪分布模式安装

为了学习这部分的功能,我们这里的linux都是使用root用户登录的。所以每个命令的前面都有一个#符号。伪分布模式安装步骤:关闭防火墙修改ip地址修改hostname设置ssh自动登录安装JDK安装hadoop1. 关闭防火墙具体的操作过程参见博文:我用过的Linux命令--关闭防火墙2. 修改ip地址具体的操作过程参见博文:3. 修改hostname具体的操作过程参见博文:我用过的Linux命令--修改主机名原文:http://www.cnblogs.com/stemon/p/4313629.html

Hadoop学习笔记—6.Hadoop Eclipse插件的使用【图】

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop开发环境中,从而实现了开发环境的图形界面化,降低了编程的难度。一、天降神器插件-Hadoop Eclipse  Hadoop Ecl...

Hadoop学习笔记01——Hadoop分布式文件系统

Hadoop有一个称为HDFS的分布式系统,全称为Hadoop Distributed Filesystem。HDFS有块(block)的概念,默认为64MB,HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元。使用块的好处在于:1. 一个文件大小可以大于集群网络中任意一个磁盘的容量,文件的所有块不需要存储在同一个磁盘上;2.简化存储管理;3.提供数据容错能力和可用性HDFS集群有2类节点:一个namenode(管理者)和多个datanode(工作者)。namenode管理文件...

Hadoop入门学习笔记---part1【代码】【图】

随着毕业设计的进行,大学四年正式进入尾声。任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定。无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力,好好做。正是因为选题和hadoop有关,现在正式开始学习hadoop。将笔记整理于此,希望与志同道合的朋友共同交流。 作者:itRed 邮箱:it_red@sina.com个人博客链接:http://www.cnblogs.com/itred 好了,废话不多...

Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗【代码】【图】

网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右...

Hadoop学习笔记系列文章导航【图】

一、为何要学习Hadoop?  这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是...

第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记

第133讲:Hadoop集群监控Ganglia架构设计和运行机制详细解析学习笔记可监控和显示集群中节点的各种状态信息,如CPU/内存、磁盘利用率,IO负载,网络流量等。ganglia可将历史数据以曲线形式非常友好地以php页面形式展现,本身有很好的扩展性,允许用户加入自己想监控的信息。要监控特殊信息时方便。下图是ganglia架构图: ganglia包含几个部分,这几个部分间通信是通过xdl或xml格式传递监控数据。集群中的节点会运行gmond收集节点状态...

hadoop学习笔记(三):hdfs常用命令【代码】

一、hadoop fs1、创建目录[root@master hadoop-2.7.0]# hadoop fs -mkdir /testdir1 [root@master hadoop-2.7.0]# hadoop fs -ls / Found 2 items drwxr-xr-x - root supergroup 02018-05-0711:27 /test drwxr-xr-x - root supergroup 02018-05-1809:27 /testdir1加 -p 则创建多级目录[root@master hadoop-2.7.0]# hadoop fs -mkdir -p /aa/bb/cc [root@master hadoop-2.7.0]# hadoop fs -ls / Found 3 item...

Hadoop学习笔记(一)—hadoop2.5.2+zookeeper3.6.4+centosx64+vmware11环境搭建【代码】【图】

前言 大数据实在是太热,一直对新技术充满着向往,其实hadoop也不是新技术,已经好几年了。打算学习,一下hadoop整个生态圈的内容。这篇文章介绍一下环境搭建,自己搭环境摸索了好几天连着,终于搭建完成,记录一下。并share一下,如果哪天你也需要,大家一起共勉。在这希望...

Hadoop学习笔记(3)——分布式环境搭建【图】

Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver)。同时,这台主机,我们就用第一章中搭建好的环境来。 我们采用与第一章中相似的步骤来操作: 运行环境搭建 在前面,我们知道,运行hadoo...

Hadoop源码学习笔记之NameNode启动流程分析二:http server启动源码剖析【代码】【图】

NameNodeHttpServer启动源码剖析,这一部分主要按以下步骤进行:  一、源码调用分析  二、伪代码调用流程梳理  三、http server服务流程图解第一步,源码调用分析  前一篇文章已经锁定到了NameNode.java类文件,搜索找到main(),可以看到代码只有寥寥几行,再筛除掉一些参数校验以及try-catch逻辑代码,  剩下的核心的代码甚至只有两行,如下: 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...

Hadoop学习笔记—17.Hive框架学习【图】

一、Hive:一个牛逼的数据仓库1.1 神马是Hive?  Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer...