HBase学习教程和资料

HBASE - 技术教程文章

HBase简介（很好的梳理资料）

HBaseHBaseHadoop网络应用数据结构NoSQL 一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache top-level project and Hbase becomes subproject2008.10 Hbase 0.18,0.19 released hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时...

Hbase优化：（待重点研究）【图】

一、服务端调优1、参数配置1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好。2）、hbase.hregion.max.fifilesize ：配置region大小，0.94.12版本默认是10G，region的大小与集群支持的总数据量有关系，如...

HBase安装教程【代码】【图】

一、版本介绍linux : CentOS7 Hadoop : 2.7.6 zookeeper : 3.4.6 hbase : 1.4.6 jdk : jdk1.8.0_171 三个节点的主机名分别为：master、node1、node2二、安装HadoopHBase 是在 Hadoop 这种分布式框架中提供持久化的数据存储与管理的工具。在使用 HBase 的分布式集群模式时，前提是必须有 Hadoop 系统，所以我们需要先安装Hadoop，进行到这一步相信大家已经安装过Hadoop环境了，如果没有安装的可以参考下面的链接。https://www.cnblo...

hbase shell

http://www.cnblogs.com/kaituorensheng/p/3814925.htmlhttp://itlab.idcquan.com/linux/set/939223_2.html重要点：（4）扫描所有数据　　scan ‘scores‘　　也可以指定一些修饰词：TIMERANGE, FILTER, LIMIT, STARTROW, STOPROW, TIMESTAMP, MAXLENGTH,or COLUMNS.没任何修饰词，就是上边例句，就会显示所有数据行。　　例句如下：　　hbase> scan ‘.META.‘　　hbase> scan ‘.META.‘, {COLUMNS => ‘info:regioninfo‘}　　h...

Hadoop学习之HBase和Hive的区别

Hive是为简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用户编程接口。Hive本身不存储和计算数据，它完全依赖於HDFS和MapReduce，Hive中的表纯逻辑表，就是些表的定义等，也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉，转换成本低，类似作用的Pig就不是SQL。　　HBase为查询而生的，它通过组织起节点内所有机器...

Hbase 表的Rowkey设计避免数据热点【代码】

一、案例分析常见避免数据热点问题的处理方式有：加盐、哈希、反转等方法结合预分区使用。由于目前原数据第一字段为时间戳形式，第二字段为电话号码，直接存储容易引起热点问题，通过加随机列、组合时间戳、字段反转的方式来设计Rowkey，来实现既能高效查询又能避免热点问题。（由于案例数据量小未进行预分区）二、代码部分 1package beifeng.hadoop.hbase;2import java.io.IOException;3import java.text.SimpleDateFormat;4impo...

【HBase基础教程】1、HBase之单机模式与伪分布式模式安装【代码】

在这篇blog中，我们将介绍Hbase的单机模式安装与伪分布式的安装方式，以及通过浏览器查看Hbase的用户界面。搭建hbase伪分布式环境的前提是我们已经搭建好了hadoop完全分布式环境，搭建hadoop环境请参考：【Hadoop基础教程】4、Hadoop之完全分布式环境搭建开发环境硬件环境：Centos 6.5 服务器4台（一台为Master节点，三台为Slave节点）软件环境：Java 1.7.0_45、Eclipse Juno Service Release 2、hadoop-1.2.1、hbase-0.94.20。1...

Hbase Python接口【代码】【图】

http://wiki.apache.org/hadoop/Hbase/ThriftApi首先根据Hbase.thrift文件生成Python接口代码，Hbase.thrift在Hbase的源码中有，路径src/main/resources/org/apache/hadoop/hbase/thrift/Hbase.thriftthrift --gen py Hbase.thrift 生成的接口文件在gen-py目录下，咱直接引用即可。from thrift.transport.TSocket import TSocket from thrift.transport.TTransport import TBufferedTransport from thrift.protocol import TBinary...

mapreduce的方式导入数据到hbase【代码】

1、配置hbase-site.xml指向hdfs<configuration><property><name>hbase.rootdir</name><value>hdfs://bigdata-senior01.home.com:9000/hbase</value></property><property><name>hbase.zookeeper.property.dataDir</name><value>hdfs://bigdata-senior01.home.com:9000/hbase/zookeeper</value></property><property><name>hbase.unsafe.stream.capability.enforce</name><value>false</value><description>Controls whether HBase ...

Hbase 操作工具类【代码】

依赖jar<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>2.0.5</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase</artifactId><version>2.0.5</version><type>pom</type></dependency> HbaseUtils.javapackage javax.utils;import java.io.IOException;import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.clien...

Hbase学习笔记（安装和基础知识及操作）【代码】【图】

参考书籍： Hadoop in action, 吴超沉思录1.Hbase简介　　1.面向列的分布式数据库　　2. 以HDFS作为文件系统　　3. 利用MapReduce处理Hbase中海量数据　　4. ZookKeeper作为协调工具　　5. sqoop提供Hbase到关系型数据库中数据导入功能　　6. Hive和pig提供高层语言支持如HSQL 2. 伪分布式安装　　　准备：安装Hadoop 详细见上一篇日志：hadoop分布式安装　　　hbase版本：hbase-0.94.7-security.tar.gz　　　安装目录 /usr/local...

hbase集群安装（1）-ssh安装及配置【图】

安装ssh服务器端赋予tg用户权限sudo chown -R tg:tg /software/ 查看用户被赋予的权限 1.检查ssh客户端是否安装: which ssh 2.检查sshd服务器端是否安装: which sshd 如下显示表示没有安转tg@master:~$ which sshdtg@master:~$ 3.安转ssh服务器端: sudo apt-get install openssh-server 4.查看ssh服务器进程: ps –e | grep–i ssh 5.允许master node可以以无密码的方式登录到其它主机，需要配置hadoop用户的公钥生成公钥：ss...

Spark操作hbase【代码】

于Spark它是一个计算框架，于Spark环境，不仅支持单个文件操作，HDFS档，同时也可以使用Spark对Hbase操作。从企业的数据源HBase取出。这涉及阅读hbase数据，在本文中尽快为了尽可能地让我们可以实践和操作Hbase。Spark Shell 来进行Hbase操作。一、环境：Haoop2.2.0Hbase版本号0.96.2-hadoop2, r1581096Spark1.0.0本文如果环境已经搭建好，Spark环境搭建可见Spark Haoop集群搭建Hadoop2.2.0要注意和Hbase的版本号兼容，这里Hbase採...

JAVA上连接ubuntu14.04上的Hbase【图】

对于新手来说，连接虚拟机上的Hbase有点繁琐，而且网上的配置不太适合初学者，今天我就整理了一下，希望对你们有帮助，第一次发博客。 1.首先去官网下载Hbase的压缩包。我这里用的是1.2.1http://hbase.apache.org/2.把他上传到ubuntu里，我这里安装了vmware tools，所有直接拉进去，命令行的快捷键是ctrl+Alt+T,vmware tools安装参照这里http://jingyan.baidu.com/album/93f9803f0d9d9be0e46f55ce.html3.这里我们解压缩一下，获得一...

HBase协处理器同步二级索引到Solr(续)【代码】

一、已知的问题和不足二、解决思路三、代码3.1 读取config文件内容3.2 封装SolrServer的获取方式3.3 编写提交数据到Solr的代码3.4 拦截HBase的Put和Delete操作信息四、使用一、已知的问题和不足在上一个版本中，实现了使用HBase的协处理器将HBase的二级索引同步到Solr中，但是仍旧有几个缺陷：写入Solr的Collection是写死在代码里面，且是唯一的。如果我们有一张表的数据希望将不同的字段同步到Solr中该如何做呢？目前所有配...

Hive与HBase区别

对于刚接触大数据的用户来说，要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析，以作抛砖引玉之用。====Hive是什么？Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库，注意这里不是数据库。Hive可以看作是用户编程接口，它本身不存储和计算数据；它依赖于HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型，映射与化简；用于大数据并行运算)。其对HDFS的...

HBase - MapReduce - HBase 作为输入源的示例 | 那伊抹微笑【代码】【图】

博文作者：那伊抹微笑csdn 博客地址：http://blog.csdn.net/u012185296itdog8 地址链接 : http://www.itdog8.com/thread-203-1-1.html博文标题：HBase - MapReduce - HBase 作为输入源的示例 | 那伊抹微笑个性签名：世界上最遥远的距离不是天涯，也不是海角，而是我站在妳的面前，妳却感觉不到我的存在技术方向：Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术转载声明：可以转载, 但必须以超链接形式标明...

Hbase安装配置【代码】

1.hbase下载(本文hadoop版本使用2.5.2，Hbase版本使用1.1.2)下载地址：http://apache.fayea.com/hbase/ 2.JDK版本支持HBase VersionJDK 6JDK 7JDK 81.2Not Supportedyesyes1.1Not SupportedyesRunning with JDK 8 will work but is not well tested.1Not SupportedyesRunning with JDK 8 will work but is not well tested.0.98yesyesRunning with JDK 8 will work but is not well tested.0.94yesyesN/A 3.hadoop版本支持HBa...

hbase原理

Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括：-Rowkey: 可以简单理解成mysql中的主键-列簇，列-时间戳按照Rowkey字典顺序存储，基于rowkey的高效检索，同时继承hdfs的高吞吐能力。Hbase用rowkey快速访问数据，所以rowkey的设计是hbase性能提升的关键Hbase数据访问方式：-通过get方式，指定rowkey获得唯一一条记录-通过scan方式，设置startRow和stopROW参数进行范围匹配...

熟悉HBase基本操作【图】

1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course）2015001Zhangsanmale23 2015003Maryfemale22 2015003Lisimale24数学（Math）85 2. 用Hadoop提供的HBase Shell命令完成相同任务：列出HBase所有的表的相关信息；list在终端打印出学生表的所有记录数据；向学生表添加课程列族；向课程列族添...

hbase执行mapreduce任务报dns异常【代码】【图】

在最近的一个项目中有这样一个需求，我们的业务数据是存放在hbase中,一天大概新增五到六百万的，然后我这边需要做一件事是按小时把新增数据加载到impala中，并且数据需要按年月日三个字段分区。起初想到的是直接在hive中建立一个表，然后在表上建立一个mapping映射到hbase中的表。但是考虑到分区，业务表中无法提供这些字段，所以另想它法。后来想到的是用hbase中提供的TableMapper按时间截扫描（这里不用rowkey原因可以自...

HBase笔记6 过滤器【图】

过滤器　　过滤器是GET或者SCAN时过滤结果用的，相当于SQL的where语句　　HBase中的过滤器创建后会被序列化,然后分发到各个region server中,region server会还原过滤器并使用,这样scan中,不满足条件的结果不会返回客户端值过滤器: (针对所有列)　　创建valueFilter实例: Filter filter=new ValueFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("xxxx"));　　　　　　CompareFileter包含一个枚举类,CompareOp,包...

HBase 中的 JVM 与 GC【代码】【图】

HBase中JVM基本配置在JVM中，默认情况下会设置minimum heap size 为 1/64 可用物理内存，并为maximum heap size设置 1/4 的物理可用内存（不过在Java8 之前，默认最大是1g）。当然，我们可以通过手动指定 JVM 参数，配置JVM的内存，例如：-Xms10g -Xmx10g 在HBase 中，也可以在 hbase-env.sh 中显示指定堆内存大小，例如：# The maximum amount of heap to use. Default is left to JVM default.# export HBASE_HEAPSIZE=1G 这里有...

Hadoop实习操作练习1（Hive与HBase初探）【图】

Chapter 1：引言近期电信集团公司举办了大数据技术培训课，按照要求，Hadoop小白的我对两者作完对比，进行实际操作做一个练习记录吧，嘿嘿。。。两者的共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储两者的区别：2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。3.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Had...

Hbase和Oracle的对比【图】

转自：http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html转自：http://blog.csdn.net/allen879/article/details/40461227转自：http://blog.itpub.net/28912557/viewspace-776770/ 由于项目需要，将原来的系统升级需要用到Hbase技术，使用了之后发现，确实很不错。那么问题来了，为什么在这里要用Hbase，而不是以前的关系型数据库Oracle，他们各自有什么特点，应用场景有何不同？带着问题去学习效果会更好。首先来...

spark1.0.2读取hbase（CDH0.96.1）上的数据【代码】【图】

基本环境：我是在win7环境下，spark1.0.2，HBase0.9.6.1 使用工具：IDEA14.1， scala 2.11.6， sbt。我现在是测试环境使用的是单节点1、使用IDEA创建一个sbt的工程后，在build.sbt文件加入配置文件libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.0.2" % "provided"libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.0.2" % "provided"libraryDependencies += "org.apache.hbase...

什么是HBase（五） HBase的运维工具

常用工具文件修复 hbck文件查看 hfileWAL查看工具 hlog压缩测试工具 compressTest（字段前缀编码以及block压缩设置后进行测试）数据迁移工具copyTable导出工具：export导入工具：import日志回放：WALPlayerregion和region server管理工具大合并工具 major_compact（关闭自动合并，然后手动（或者cron）在合适的时间点进行合并）小合并工具（只是同表的region文件合并） hbase merge节点下线（此法包含了优雅关机以及滚动重启） hba...

HBase集群下，相同数据库表名的隔离问题

HBase本身有命名空间的概念，所有数据库表可以定义在命名空间下：通过命名空间实现隔离：env COMPRESSION=NONE TSDB_TABLE=c2:tsdb UID_TABLE=c2:tsdb-uid TREE_TABLE=c2:tsdb-tree META_TABLE=c2:tsdb-meta HBASE_HOME=/home/hadoop/hbase-0.98.5-hadoop2 create_table.sh原文：http://my.oschina.net/yjwxh/blog/510510

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

培训大数据架构开发！从零基础到高级，手把手培训！[技术QQ：2937765541]? ?----------------------------------------------------------------------------------------------------------------------------------课程目录：获取视频资料和培训解答技术支持地址?课程展示(永久免费更新！永久免费培训解答技术支持！)：获取视频资料和培训解答技术支持地址?原文：http://twskyn.iteye.com/blog/2289784

Hbase 出现 org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 错误【代码】

ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yetat org.apache.hadoop.hbase.master.HMaster.checkServiceStarted(HMaster.java:2372)at org.apache.hadoop.hbase.master.MasterRpcServices.isMasterRunning(MasterRpcServices.java:931)at org.apache.hadoop.hbase.protobuf.generated.MasterProtos$MasterService$2.callBlockingMethod(MasterProtos.java:55654)at org.apache.had...

HBASE - 最热教程

深入分析HBaseRPC(Protobuf)实现机制 HBase应用与发展之HBase RowKey与索引设...python – couchbase因为太大而无法存储 Apache NiFi之MySQL数据同步到HBase python使用happybase批量的操作hbase HBase方案 | 基于Lindorm的互联网账单解...排查生产环境HBase RegionServer节点无...hbase是否能取代mysql HBase的region管理深入HBASE原理详解

HBASE - 技术教程文章

HBASE - 最新教程

HBASE - 最热教程