HBASE - 技术教程文章

Hbase:RowKey和Filter效率比较

范围查询的方式:1.按RowKey查询 2.filter设置ColumnValue的条件 对于多个Column存储,从关系数据库中由复合索引的表迁移过来的,自然想到的是在hbase上加二级索引,但是效率却不好,分析一下原因:Hbase按索引建表  在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引,成为了其成功的最大的砝码  单一的通过Rowkey检索数据的方式,不再满足更多应用的需求...

Hive与Hbase区别

hive是什么?白话一点再加不严格一点,hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。于是,hbase是什么?同样白话一点加不严格一点,hbase可以认为是hdfs的一个包装。他的本质是数据存储,是个NoSql数据库;hbase部署于hdfs之上,并且克服了hdfs在随机读写方面的缺点。所以要问hive和hbase的区别,就应该问问map-reduce和hdfs之间的区别,问区别,就要先说说他俩哪里像。...

HBASE完全分布式模式的安装【代码】【图】

hadoop环境搭建好了,也学习了在eclipse中调试wordcount了,嘿嘿,下面试试hbase集成进去,年后争取顺利转入hadoop工作 首先 hadoop 和hbase版本需要对应,不然很多未知问题的 对应表如下Table 2.1. Hadoop version support matrix HBase-0.92.xHBase-0.94.xHBase-0.96.0Hadoop-0.20.205SXXHadoop-0.22.xSXXHadoop-1.0.0-1.0.2[a]SSXHadoop-1.0.3+SSSHadoop-1.1.xNTSSHadoop-0.23.xXSNTHadoop-2.0.x-alphaXNTXHadoop-2.1.0-beta...

hbase_异常_01_Hbase: Failed to become active master【代码】

一、异常现象启动hbase之后,抛出异常,异常信息如下:master.HMaster: Failed to become active masterhbase java.net.ConnectException: Call From to 9000 failed on connection exception: java.net.ConnectException: Connection refused; 二、异常原因参考:Hbase: Failed to become active master 的解释:Can you please check the config "hbase.rootdir". Looks like this config is pointing to NameNode which is in S...

hbase学习(二)-hbase安装【代码】【图】

本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.11/ 将下载的hbase-0.94.11解压到相应的目录,如/usr/hbase-0.94.11 将hbase-0.90.4重命名为hbasemv hbase-0.94.11 hbase 首先需要将h...

hbase-1.0.1.1集群搭建

hbase-1.0.1.1集群搭建本文出自 “鲁春利的工作笔记” 博客,请务必保留此出处http://luchunli.blog.51cto.com/2368057/1682049原文:http://luchunli.blog.51cto.com/2368057/1682049

HBase高性能复杂条件查询引擎【图】

——索引的实质是另一种编排形式的数据冗余,高效的检索源自于面向查询特别设计的编排形式,如果再辅以分布式的计算框架,就可以支撑起高性能的大数据查询。本文原文出处: http://blog.csdn.net/bluishglc/article/details/31799255 严禁任何形式的转载,否则将委托CSDN官方维护权益!Apache HBase?是一个分布式、可伸缩的NoSQL数据库,它构建在Hadoop基础设施之上,依托于Hadoop的迅猛发展,HBase在大数据领域的应用越来越广泛,成...

HBase在线数据备份【代码】【图】

简述hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和HLog来实现的。当请求发送给master cluster时,HLog日志放入hdfs的同时进入replication队列,由slave cluster通过zookeeper获取并写入slave的表中。目前的版本仅支持一个slave cluster 。HBase ReplicationHBase复制是一种在不同HBase部署中复制数...

HBaseConvetorUtil 实体转换工具类【图】

HBaseConvetorUtil 实体转换工具类public class HBaseConvetorUtil { /** * @Title: convetor * @Description: 传入hbase返回结果值,返回实例集合 * @param * @return * @throws */ public static <T> List<T>convetor(Class<T> cla,ResultScanner resultScanner) throws Exception{ List<T> list = new ArrayList<T>(); for (Result result :resultScanner) { Field []fileds=cla.getDec...

Hbase scan 查询命令大全,前缀,模糊,正则

Hbase scan 查询例子数据?https://java-er.com/blog/hbase-scan-all-command/stu 学生列族 base 存储学生姓名,身高基本信息列族 score 存储成绩c1_s1 c1 班级 s1 学生编号 create ‘stu‘,‘base‘,‘score‘put ‘stu‘,‘c1_s1‘,‘base:name‘,‘jack‘put ‘stu‘,‘c1_s2‘,‘base:name‘,‘jack2‘put ‘stu‘,‘c1_s3‘,‘base:name‘,‘jack3‘put ‘stu‘,‘c1_s4‘,‘base:name‘,‘jack4‘put ‘stu‘,‘c2_s1‘,‘bas...

Hadoop搭建HA环境(Hadoop+HBase+Zookeeper)注意事项

搭建HA的环境,在配置完成之后,进行集群格式化时,需要注意,格式化的顺序是:先启动所有的jourlnode,然后在namenode1上格式化namenode,启动namenode,检查namenode是否能起来。然后要关闭整个集群,再启动所有的Zookeeper,最后在namenode1上初始化Zookeeper。PS:最好不要使用shell脚本去启动Zookeeper,若一定要用,需要在命令:zkServer.sh start后使用参数。否则会报错:nohup: failed to run command `java‘: No such fi...

HBase 架构一览【图】

HBase Architectural ComponentsHBase 的主从结构主要由三部分组成。Region Server 用于服务数据的读写,当访问数据时,客户端直接与 HBase RegionServer 交互。Region 的分配(region assignment),DDL(create,delete tables)的操作由 HBase Master 处理。Zookeepr,作为HDFS的一部分,用于维持一个活跃的集群状态。Hadoop DataNode 存储了Region Server 管理的数据。所有的HBase 数据存储在 HDFS文件里。Region Servers 与 H...

【转帖】HBase读写的几种方式(二)spark篇【代码】

https://www.cnblogs.com/swordfall/p/10517177.html 分类: HBaseundefined1. HBase读写的方式概况主要分为:纯Java API读写HBase的方式;Spark读写HBase的方式;Flink读写HBase的方式;HBase通过Phoenix读写的方式;第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成HBase的方式,最后一种是第三方插件Phoenix集成的JDBC方式,Phoenix集成的JDBC操作方式也能在Spark、Flink中调用。注意:...

Hbase的基本原理与使用【代码】【图】

重点:HBase的基本数据模型、拓扑结构、部署配置方法,并介绍通过命令行和编程方式使用HBase的基本方法。HBase:一种列存储模式与键值对相结合的NoSQL软件,但更多的是使用列存储模式,底层的数据文件采用HDFS存储,其文件结构和元数据等由自身维护.HBase是Hadoop的重要成员,提供了分布式数据表和更高效的数据查询能力,弥补了HDFS只能进行文件管理以及MapReduce不适合完成实时任务的缺陷.HBase利用HDFS实现数据分布式存储,数据分块以及多...

CouchBase 遇到问题笔记(一)【代码】

刚开始看CouchBase,按照官网给出的示例,边敲边理解,遇到了一个很奇怪的问题,如下代码: IView<IViewRow> view = client.GetView("beer", "by_name");foreach (var row in view){Console.WriteLine("Row ID: " + row.ItemId);Console.WriteLine("Row Key: " + row.ViewKey[0]);Console.WriteLine("Row Value: " + row.Info["value"]);}Console.ReadLine(); 在返回值的时候,可以看见view集合有值,但是其中的...

hbase基本介绍【图】

本文主要简单的介绍一下hbase数据库,主要是基本模型,与关系数据库的不同,主要应用场景。本文并未涉及hbase数据库的安装,具体安装过程网上都比较详细,也可参考《hbase权威指南》1 hbase数据库产生的根源hbase是google公司bigtable的开源实现,hbase基于hadoop的hdfs主要是对hadoop分布式文件系统hdfs的有效补充。因为hdfs存在存储大量小文件效率低下(小文件太对存储文件的原信息就多,造成namenode效率低下),同时还有效的解...

couchbase的备份与恢复命令

./cbbackup http://192.168.1.112:8091 /backups/20140505 -u Administrator -p password -b misc scp -r /backups/* root@58.61.xx.xx:/backups ./cbrestore /backups/20140505 http://Administrator:password@58.61.xx.xx:8091 --bucket-source=misc --bucket-destination=misc原文:http://blog.csdn.net/atec2000/article/details/25062089

HBase学习(十八)Hbase rowkey设计一

hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以 rowkey的设计是至关重要的,关系到你应用层的查询效率。我们知道,rowkey是以字典顺序排序的。而存储的字节码,字典排序,我们知道,如果是字母,那就是字母的顺序,比如,有两个...

关于Hbase开启snappy压缩【代码】

版本:自己编译的hbase-1.2.0-cdh5.14.0默认情况下,Hbase不开启snappy压缩 , 所以在hbase的lib/native目录下什么也没有(我的前提是执行hadoop checknative可以看到hadoop是支持snappy的)第一步:需要将snappy-java-1.0.4.1.jar放在hbase的native目录下:可以去hadoop下拷贝过去:cp /opt/cdh/hadoop-2.6.0-cdh5.14.0/share/hadoop/tools/lib/snappy-java-1.0.4.1.jar /opt/cdh/hbase-1.2.0-cdh5.14.0/lib/native第二步:在hbase...

深入理解HBase【图】

思考:HBase服务器内部由那些主要部件构成? HBase的内部工作原理是什么? 1. HBase的工作原理: 首先HBase Client端会连接Zookeeper Qurom(从下面的代码也能看出来,例 如:HBASE_CONFIG.set(“hbase.zookeeper.quorum”,”192.168.50.216″) )。通过Zookeeper组件Client能获知哪个Server管理-ROOT-Region。那么Client就去访问管理-ROOT-的 Server,在META中记录了HBase中所有表信息,(你可以使用 scan ‘.META.’ 命令列出...

Hbase Java API 测试代码

package com.rabbit.hadoop.testEnv;import java.io.IOException;import java.util.List;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apach...

HADOOP学习笔记(四):HBase【图】

HBase简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。HBase 要点① 它介于 NoSQL 和 RDBMS 之间,仅能通过主键(rowkey)和主键的 range 来检索数据② HBase 查询数据功能很简单,不支...

hbase单机模式的安装及启动

从apache官网上下载hbase的稳定版本:http://mirror.bit.edu.cn/apache/hbase/stable/hbase-1.1.2-bin.tar.gz解压到本机上的任何一个目录,在我的电脑上是/home/jason/hbase:tar xvfz hbase-1.1.2-bin.tar.gz修改/etc/profile文件增加环境变量http://my.oschina.net/u/914897/admin/new-blogexport HBASE_HOME=/home/jason/hbase/hbase-1.1.2export PATH=$PATH:$HBASE_HOME/binsource /etc/profile使配置生效配置/conf/hbase-env...

Ubuntu环境下nutch集成HBase【代码】

nutch集成HBase(详见:http://duguyiren3476.iteye.com/blog/2085973 )1. 修改nutch的hbase配置//将自己的hbase配置copy到nutch配置中 cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/ 2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)原因:(我使用的hbase时0.94.25)nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90如果使用默认的hbase0.90操作自己安装的hbase0.94,...

hbase

http://hbase.apache.org/http://www.crxy.cn/ 大数据http://blog.csdn.net/frankiewang008/article/details/41965543http://wangmored.iteye.com/blog/1727731原文:http://www.cnblogs.com/zengkefu/p/5058798.html

HBase篇--初始Hbase【图】

一.前述1.HBase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。2.利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。3.主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)。二.Hbase数据模型2.1 ROW KEY(相当于关系型数据库中的ID)决定一行数据按照字典顺序排序的。Row key只能存储64k的字节数据2.2 Column Family列族 & qu...

通过 JMX 获取Hadoop/HBase监控数据

概述说到对Hadoop和 HBase的集群监控,大家知道的和用的最多的可能还是第三方的监控工具,cacti,ganglia,zabbix之类的。玩的深一些的,会用 zenoss之类的。这些工具确实不错,也能发挥很大的作用,但时间长了总感觉监控粒度还是比较粗,不够详细。毕竟是第三方的监控,即便Hadoop自带 了ganglia的接口,也还是觉得不够。其实Hadoop本身是带有监控接口的,各公司的发行版还有自己定制的接口,不过可能知道的人就不太多了。其实这个...

熟悉常用的HBase操作【代码】【图】

create ‘Student‘, ‘ S_No ‘,‘S_Name‘, ’S_Sex’,‘S_Age‘ put ‘Student‘,‘s001‘,‘S_No‘,‘2015001‘ put ‘Student‘,‘s001‘,‘S_Name‘,‘Zhangsan‘ put ‘Student‘,‘s001‘,‘S_Sex‘,‘male‘ put ‘Student‘,‘s001‘,‘S_Age‘,‘23‘ put ‘Student‘,‘s002‘,‘S_No‘,‘2015003‘ put ‘Student‘,‘s002‘,‘S_Name‘,‘Mary‘ put ‘Student‘,‘s002‘,‘S_Sex‘,‘female‘ put ‘Student‘,‘...

记一次OGG数据写入HBase的丢失数据原因分析【代码】【图】

一、现象二、原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息发送类2.3.4 Kafka 分区获取方式三、结论一、现象目前我们的数据是通过OGG->Kafka->Spark Streaming->HBase。由于之前我们发现HBase的列表put无法保证顺序,因此改了程序,如果是在同一个SparkStreaming的批次里面对同一条数据进行操作,则写入HBase的数据时间戳就非常相近,只会差几毫秒,...

熟悉常用的HBase操作,编写MapReduce作业【代码】【图】

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23 2015003Maryfemale22 2015003Lisimale24数学(Math)85 流程:1.开启dfs和hbase验证是否成功开启创建表,但是因为我在shell命令写的时候总会卡死,之后进程就直接被杀死了,所以下面我自己手写2. 用Hadoop提供的HBa...