HBASE - 技术教程文章

HBase高性能复杂条件查询引擎【图】

——索引的实质是另一种编排形式的数据冗余,高效的检索源自于面向查询特别设计的编排形式,如果再辅以分布式的计算框架,就可以支撑起高性能的大数据查询。本文原文出处: http://blog.csdn.net/bluishglc/article/details/31799255 严禁任何形式的转载,否则将委托CSDN官方维护权益!Apache HBase?是一个分布式、可伸缩的NoSQL数据库,它构建在Hadoop基础设施之上,依托于Hadoop的迅猛发展,HBase在大数据领域的应用越来越广泛,成...

HBase在线数据备份【代码】【图】

简述hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和HLog来实现的。当请求发送给master cluster时,HLog日志放入hdfs的同时进入replication队列,由slave cluster通过zookeeper获取并写入slave的表中。目前的版本仅支持一个slave cluster 。HBase ReplicationHBase复制是一种在不同HBase部署中复制数...

HBaseConvetorUtil 实体转换工具类【图】

HBaseConvetorUtil 实体转换工具类public class HBaseConvetorUtil { /** * @Title: convetor * @Description: 传入hbase返回结果值,返回实例集合 * @param * @return * @throws */ public static <T> List<T>convetor(Class<T> cla,ResultScanner resultScanner) throws Exception{ List<T> list = new ArrayList<T>(); for (Result result :resultScanner) { Field []fileds=cla.getDec...

Hbase scan 查询命令大全,前缀,模糊,正则

Hbase scan 查询例子数据?https://java-er.com/blog/hbase-scan-all-command/stu 学生列族 base 存储学生姓名,身高基本信息列族 score 存储成绩c1_s1 c1 班级 s1 学生编号 create ‘stu‘,‘base‘,‘score‘put ‘stu‘,‘c1_s1‘,‘base:name‘,‘jack‘put ‘stu‘,‘c1_s2‘,‘base:name‘,‘jack2‘put ‘stu‘,‘c1_s3‘,‘base:name‘,‘jack3‘put ‘stu‘,‘c1_s4‘,‘base:name‘,‘jack4‘put ‘stu‘,‘c2_s1‘,‘bas...

Hadoop搭建HA环境(Hadoop+HBase+Zookeeper)注意事项

搭建HA的环境,在配置完成之后,进行集群格式化时,需要注意,格式化的顺序是:先启动所有的jourlnode,然后在namenode1上格式化namenode,启动namenode,检查namenode是否能起来。然后要关闭整个集群,再启动所有的Zookeeper,最后在namenode1上初始化Zookeeper。PS:最好不要使用shell脚本去启动Zookeeper,若一定要用,需要在命令:zkServer.sh start后使用参数。否则会报错:nohup: failed to run command `java‘: No such fi...

HBase 架构一览【图】

HBase Architectural ComponentsHBase 的主从结构主要由三部分组成。Region Server 用于服务数据的读写,当访问数据时,客户端直接与 HBase RegionServer 交互。Region 的分配(region assignment),DDL(create,delete tables)的操作由 HBase Master 处理。Zookeepr,作为HDFS的一部分,用于维持一个活跃的集群状态。Hadoop DataNode 存储了Region Server 管理的数据。所有的HBase 数据存储在 HDFS文件里。Region Servers 与 H...

【转帖】HBase读写的几种方式(二)spark篇【代码】

https://www.cnblogs.com/swordfall/p/10517177.html 分类: HBaseundefined1. HBase读写的方式概况主要分为:纯Java API读写HBase的方式;Spark读写HBase的方式;Flink读写HBase的方式;HBase通过Phoenix读写的方式;第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成HBase的方式,最后一种是第三方插件Phoenix集成的JDBC方式,Phoenix集成的JDBC操作方式也能在Spark、Flink中调用。注意:...

Hbase的基本原理与使用【代码】【图】

重点:HBase的基本数据模型、拓扑结构、部署配置方法,并介绍通过命令行和编程方式使用HBase的基本方法。HBase:一种列存储模式与键值对相结合的NoSQL软件,但更多的是使用列存储模式,底层的数据文件采用HDFS存储,其文件结构和元数据等由自身维护.HBase是Hadoop的重要成员,提供了分布式数据表和更高效的数据查询能力,弥补了HDFS只能进行文件管理以及MapReduce不适合完成实时任务的缺陷.HBase利用HDFS实现数据分布式存储,数据分块以及多...

CouchBase 遇到问题笔记(一)【代码】

刚开始看CouchBase,按照官网给出的示例,边敲边理解,遇到了一个很奇怪的问题,如下代码: IView<IViewRow> view = client.GetView("beer", "by_name");foreach (var row in view){Console.WriteLine("Row ID: " + row.ItemId);Console.WriteLine("Row Key: " + row.ViewKey[0]);Console.WriteLine("Row Value: " + row.Info["value"]);}Console.ReadLine(); 在返回值的时候,可以看见view集合有值,但是其中的...

hbase基本介绍【图】

本文主要简单的介绍一下hbase数据库,主要是基本模型,与关系数据库的不同,主要应用场景。本文并未涉及hbase数据库的安装,具体安装过程网上都比较详细,也可参考《hbase权威指南》1 hbase数据库产生的根源hbase是google公司bigtable的开源实现,hbase基于hadoop的hdfs主要是对hadoop分布式文件系统hdfs的有效补充。因为hdfs存在存储大量小文件效率低下(小文件太对存储文件的原信息就多,造成namenode效率低下),同时还有效的解...

couchbase的备份与恢复命令

./cbbackup http://192.168.1.112:8091 /backups/20140505 -u Administrator -p password -b misc scp -r /backups/* root@58.61.xx.xx:/backups ./cbrestore /backups/20140505 http://Administrator:password@58.61.xx.xx:8091 --bucket-source=misc --bucket-destination=misc原文:http://blog.csdn.net/atec2000/article/details/25062089

HBase学习(十八)Hbase rowkey设计一

hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据。所以 rowkey的设计是至关重要的,关系到你应用层的查询效率。我们知道,rowkey是以字典顺序排序的。而存储的字节码,字典排序,我们知道,如果是字母,那就是字母的顺序,比如,有两个...

关于Hbase开启snappy压缩【代码】

版本:自己编译的hbase-1.2.0-cdh5.14.0默认情况下,Hbase不开启snappy压缩 , 所以在hbase的lib/native目录下什么也没有(我的前提是执行hadoop checknative可以看到hadoop是支持snappy的)第一步:需要将snappy-java-1.0.4.1.jar放在hbase的native目录下:可以去hadoop下拷贝过去:cp /opt/cdh/hadoop-2.6.0-cdh5.14.0/share/hadoop/tools/lib/snappy-java-1.0.4.1.jar /opt/cdh/hbase-1.2.0-cdh5.14.0/lib/native第二步:在hbase...

深入理解HBase【图】

思考:HBase服务器内部由那些主要部件构成? HBase的内部工作原理是什么? 1. HBase的工作原理: 首先HBase Client端会连接Zookeeper Qurom(从下面的代码也能看出来,例 如:HBASE_CONFIG.set(“hbase.zookeeper.quorum”,”192.168.50.216″) )。通过Zookeeper组件Client能获知哪个Server管理-ROOT-Region。那么Client就去访问管理-ROOT-的 Server,在META中记录了HBase中所有表信息,(你可以使用 scan ‘.META.’ 命令列出...

Hbase Java API 测试代码

package com.rabbit.hadoop.testEnv;import java.io.IOException;import java.util.List;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apach...

HADOOP学习笔记(四):HBase【图】

HBase简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。HBase 要点① 它介于 NoSQL 和 RDBMS 之间,仅能通过主键(rowkey)和主键的 range 来检索数据② HBase 查询数据功能很简单,不支...

hbase单机模式的安装及启动

从apache官网上下载hbase的稳定版本:http://mirror.bit.edu.cn/apache/hbase/stable/hbase-1.1.2-bin.tar.gz解压到本机上的任何一个目录,在我的电脑上是/home/jason/hbase:tar xvfz hbase-1.1.2-bin.tar.gz修改/etc/profile文件增加环境变量http://my.oschina.net/u/914897/admin/new-blogexport HBASE_HOME=/home/jason/hbase/hbase-1.1.2export PATH=$PATH:$HBASE_HOME/binsource /etc/profile使配置生效配置/conf/hbase-env...

Ubuntu环境下nutch集成HBase【代码】

nutch集成HBase(详见:http://duguyiren3476.iteye.com/blog/2085973 )1. 修改nutch的hbase配置//将自己的hbase配置copy到nutch配置中 cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/ 2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)原因:(我使用的hbase时0.94.25)nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90如果使用默认的hbase0.90操作自己安装的hbase0.94,...

hbase

http://hbase.apache.org/http://www.crxy.cn/ 大数据http://blog.csdn.net/frankiewang008/article/details/41965543http://wangmored.iteye.com/blog/1727731原文:http://www.cnblogs.com/zengkefu/p/5058798.html

HBase篇--初始Hbase【图】

一.前述1.HBase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。2.利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。3.主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)。二.Hbase数据模型2.1 ROW KEY(相当于关系型数据库中的ID)决定一行数据按照字典顺序排序的。Row key只能存储64k的字节数据2.2 Column Family列族 & qu...

通过 JMX 获取Hadoop/HBase监控数据

概述说到对Hadoop和 HBase的集群监控,大家知道的和用的最多的可能还是第三方的监控工具,cacti,ganglia,zabbix之类的。玩的深一些的,会用 zenoss之类的。这些工具确实不错,也能发挥很大的作用,但时间长了总感觉监控粒度还是比较粗,不够详细。毕竟是第三方的监控,即便Hadoop自带 了ganglia的接口,也还是觉得不够。其实Hadoop本身是带有监控接口的,各公司的发行版还有自己定制的接口,不过可能知道的人就不太多了。其实这个...

熟悉常用的HBase操作【代码】【图】

create ‘Student‘, ‘ S_No ‘,‘S_Name‘, ’S_Sex’,‘S_Age‘ put ‘Student‘,‘s001‘,‘S_No‘,‘2015001‘ put ‘Student‘,‘s001‘,‘S_Name‘,‘Zhangsan‘ put ‘Student‘,‘s001‘,‘S_Sex‘,‘male‘ put ‘Student‘,‘s001‘,‘S_Age‘,‘23‘ put ‘Student‘,‘s002‘,‘S_No‘,‘2015003‘ put ‘Student‘,‘s002‘,‘S_Name‘,‘Mary‘ put ‘Student‘,‘s002‘,‘S_Sex‘,‘female‘ put ‘Student‘,‘...

记一次OGG数据写入HBase的丢失数据原因分析【代码】【图】

一、现象二、原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息发送类2.3.4 Kafka 分区获取方式三、结论一、现象目前我们的数据是通过OGG->Kafka->Spark Streaming->HBase。由于之前我们发现HBase的列表put无法保证顺序,因此改了程序,如果是在同一个SparkStreaming的批次里面对同一条数据进行操作,则写入HBase的数据时间戳就非常相近,只会差几毫秒,...

熟悉常用的HBase操作,编写MapReduce作业【代码】【图】

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23 2015003Maryfemale22 2015003Lisimale24数学(Math)85 流程:1.开启dfs和hbase验证是否成功开启创建表,但是因为我在shell命令写的时候总会卡死,之后进程就直接被杀死了,所以下面我自己手写2. 用Hadoop提供的HBa...

Hbase配置项粗解

继之前写的设计和使用tip,这里补充一下hbase所有的配置项。之前涉及的一个项目在hbase设计上存在缺陷,当进入时已经存在着很多rowkey设计和读写问题,现在重读hbase文档,把所有的配置项整理一遍。hbase.tmp.dir:本地文件系统的临时目录,默认是${java.io.tmpdir}/hbase-${user.name};hbase.rootdir:hbase持久化的目录,被所有regionserver共享,默认${hbase.tmp.dir}/hbase,一般设置为hdfs://namenode.example.org:9000/hbas...

读书笔记-HBase in Action-第三部分应用-(2)GIS系统【图】

本章介绍用HBase存储、高效查询地理位置信息。Geohash空间索引考虑LBS应用中常见的两个问题:1)查找离某地最近的k个地点;2)查找某区域内地点。如果要用HBase实现高效查找,首先要考虑的是空间局部性(Spatial Locality),即位置上相近的点得物理存储在一起。最简单的地理位置数据由两个维度组成:经度X和纬度Y,那么相对应最简单的Rowkey也可以由X和Y组成。Rowkey的有序性决定了数据首先按照经度X排序,再按照纬度Y排序,这种方...

HBase Error: connection object not serializable【代码】

HBase Error: connection object not serializable想在spark driver程序中连接HBase数据库,并将数据插入到HBase,但是在spark集群提交运行过程中遇到错误:connection object not serializable详细的错误:Exception in thread "main" java.io.NotSerializableException: DStream checkpointing has been enabled but the DStreams with their functions are not serializable com.sae.model.HbaseHelper Serialization stack:- o...

java 连接hbase【代码】

package com.weshare.bigdata; import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;public class hbaseLink {static org.apache.hadoop.conf.Configuration configuration=null;private org.apache.hadoop.hbase.client.Connection connection=null;private T...

hbase

http://grokbase.com/t/hbase/user/125ya2cxxs/scan-addfamily-vs-familyfilter-equal Just to add on.The java doc clearly says in FamilyFilter that* If an already known column family is looked for, use {@linkorg.apache.hadoop.hbase.client.Get#addFamily(byte[])}* directly rather than a filter.So addFamily should be better.RegardsRam-----Original Message-----From: Anoop Sam JohnSent: Thursday, May 31, 20...

NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr4.8.1部署(二)

??Precondition:hadoop 2.7.1 hbase 1.0.1.1 / hbase 0.98.13192.168.1.106 ->master 192.168.1.105 ->slave / regionservershbase部署直接下载hbase bin文件hbase1.0.1.1 还有hbase 0.98.13 和hadoop2.7.1 / hadoop 2.5.2 配合并没有问题。只不过Nutch2.3 似乎和hbase 0.98.13 配合比较好。1. 配置hbase-site.xml<configuration> <property><name>hbase.zookeeper.quorum</name><value>192.168.1.105,192.168.1.106</value> </pro...