HBASE - 技术教程文章

HBase简介(很好的梳理资料)

HBaseHBaseHadoop网络应用数据结构NoSQL 一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache top-level project and Hbase becomes subproject2008.10 Hbase 0.18,0.19 released hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时...

Hbase优化:(待重点研究)【图】

一、服务端调优1、参数配置1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.hregion.max.fifilesize :配置region大小,0.94.12版本默认是10G,region的大小与集群支持的总数据量有关系,如...

HBase安装教程【代码】【图】

一、版本介绍linux : CentOS7 Hadoop : 2.7.6 zookeeper : 3.4.6 hbase : 1.4.6 jdk : jdk1.8.0_171 三个节点的主机名分别为:master、node1、node2二、安装HadoopHBase 是在 Hadoop 这种分布式框架中提供持久化的数据存储与管理的工具。在使用 HBase 的分布式集群模式时,前提是必须有 Hadoop 系统,所以我们需要先安装Hadoop,进行到这一步相信大家已经安装过Hadoop环境了,如果没有安装的可以参考下面的链接。https://www.cnblo...

hbase shell

http://www.cnblogs.com/kaituorensheng/p/3814925.htmlhttp://itlab.idcquan.com/linux/set/939223_2.html重要点:(4)扫描所有数据  scan ‘scores‘  也可以指定一些修饰词:TIMERANGE, FILTER, LIMIT, STARTROW, STOPROW, TIMESTAMP, MAXLENGTH,or COLUMNS.没任何修饰词,就是上边例句,就会显示所有数据行。  例句如下:  hbase> scan ‘.META.‘  hbase> scan ‘.META.‘, {COLUMNS => ‘info:regioninfo‘}  h...

Hadoop学习之HBase和Hive的区别

Hive是为简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用户编程接口。Hive本身不存储和计算数据,它完全依赖於HDFS和MapReduce,Hive中的表纯逻辑表,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就不是SQL。   HBase为查询而生的,它通过组织起节点内所有机器...

Hbase 表的Rowkey设计避免数据热点【代码】

一、案例分析常见避免数据热点问题的处理方式有:加盐、哈希、反转等方法结合预分区使用。由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列、组合时间戳、字段反转的方式来设计Rowkey,来实现既能高效查询又能避免热点问题。(由于案例数据量小未进行预分区)二、代码部分 1package beifeng.hadoop.hbase;2import java.io.IOException;3import java.text.SimpleDateFormat;4impo...

【HBase基础教程】1、HBase之单机模式与伪分布式模式安装【代码】

在这篇blog中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面。搭建hbase伪分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建hadoop环境请参考:【Hadoop基础教程】4、Hadoop之完全分布式环境搭建开发环境硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45、Eclipse Juno Service Release 2、hadoop-1.2.1、hbase-0.94.20。1...

Hbase Python接口【代码】【图】

http://wiki.apache.org/hadoop/Hbase/ThriftApi首先根据Hbase.thrift文件生成Python接口代码,Hbase.thrift在Hbase的源码中有,路径src/main/resources/org/apache/hadoop/hbase/thrift/Hbase.thriftthrift --gen py Hbase.thrift 生成的接口文件在gen-py目录下,咱直接引用即可。from thrift.transport.TSocket import TSocket from thrift.transport.TTransport import TBufferedTransport from thrift.protocol import TBinary...

mapreduce的方式导入数据到hbase【代码】

1、配置hbase-site.xml指向hdfs<configuration><property><name>hbase.rootdir</name><value>hdfs://bigdata-senior01.home.com:9000/hbase</value></property><property><name>hbase.zookeeper.property.dataDir</name><value>hdfs://bigdata-senior01.home.com:9000/hbase/zookeeper</value></property><property><name>hbase.unsafe.stream.capability.enforce</name><value>false</value><description>Controls whether HBase ...

Hbase 操作工具类【代码】

依赖jar<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>2.0.5</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase</artifactId><version>2.0.5</version><type>pom</type></dependency> HbaseUtils.javapackage javax.utils;import java.io.IOException;import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.clien...

Hbase学习笔记(安装和基础知识及操作)【代码】【图】

参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介  1.面向列的分布式数据库  2. 以HDFS作为文件系统  3. 利用MapReduce处理Hbase中海量数据  4. ZookKeeper作为协调工具  5. sqoop提供Hbase到关系型数据库中数据导入功能  6. Hive和pig提供高层语言支持如HSQL 2. 伪分布式安装   准备: 安装Hadoop 详细见上一篇日志:hadoop分布式安装   hbase版本:hbase-0.94.7-security.tar.gz   安装目录 /usr/local...

hbase集群安装(1)-ssh安装及配置【图】

安装ssh服务器端赋予tg用户权限sudo chown -R tg:tg /software/ 查看用户被赋予的权限 1.检查ssh客户端是否安装: which ssh 2.检查sshd服务器端是否安装: which sshd 如下显示表示没有安转tg@master:~$ which sshdtg@master:~$ 3.安转ssh服务器端: sudo apt-get install openssh-server 4.查看ssh服务器进程: ps –e | grep–i ssh 5.允许master node可以以无密码的方式登录到其它主机,需要配置hadoop用户的公钥生成公钥:ss...

Spark操作hbase【代码】

于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作。 从企业的数据源HBase取出。这涉及阅读hbase数据,在本文中尽快为了尽可能地让我们可以实践和操作Hbase。Spark Shell 来进行Hbase操作。一、环境:Haoop2.2.0Hbase版本号0.96.2-hadoop2, r1581096Spark1.0.0本文如果环境已经搭建好,Spark环境搭建可见Spark Haoop集群搭建Hadoop2.2.0要注意和Hbase的版本号兼容,这里Hbase採...

JAVA上连接ubuntu14.04上的Hbase【图】

对于新手来说,连接虚拟机上的Hbase有点繁琐,而且网上的配置不太适合初学者,今天我就整理了一下,希望对你们有帮助,第一次发博客。 1.首先去官网下载Hbase的压缩包。我这里用的是1.2.1http://hbase.apache.org/2.把他上传到ubuntu里,我这里安装了vmware tools,所有直接拉进去,命令行的快捷键是ctrl+Alt+T,vmware tools安装参照这里http://jingyan.baidu.com/album/93f9803f0d9d9be0e46f55ce.html3.这里我们解压缩一下,获得一...

HBase协处理器同步二级索引到Solr(续)【代码】

一、 已知的问题和不足二、解决思路三、代码3.1 读取config文件内容3.2 封装SolrServer的获取方式3.3 编写提交数据到Solr的代码3.4 拦截HBase的Put和Delete操作信息四、 使用一、 已知的问题和不足 在上一个版本中,实现了使用HBase的协处理器将HBase的二级索引同步到Solr中,但是仍旧有几个缺陷:写入Solr的Collection是写死在代码里面,且是唯一的。如果我们有一张表的数据希望将不同的字段同步到Solr中该如何做呢?目前所有配...

Hive与HBase区别

对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。====Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型,映射与化简;用于大数据并行运算)。其对HDFS的...

HBase - MapReduce - HBase 作为输入源的示例 | 那伊抹微笑【代码】【图】

博文作者:那伊抹微笑csdn 博客地址:http://blog.csdn.net/u012185296itdog8 地址链接 : http://www.itdog8.com/thread-203-1-1.html博文标题:HBase - MapReduce - HBase 作为输入源的示例 | 那伊抹微笑个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术转载声明:可以转载, 但必须以超链接形式标明...

Hbase安装配置【代码】

1.hbase下载(本文hadoop版本使用2.5.2,Hbase版本使用1.1.2)下载地址:http://apache.fayea.com/hbase/ 2.JDK版本支持HBase VersionJDK 6JDK 7JDK 81.2Not Supportedyesyes1.1Not SupportedyesRunning with JDK 8 will work but is not well tested.1Not SupportedyesRunning with JDK 8 will work but is not well tested.0.98yesyesRunning with JDK 8 will work but is not well tested.0.94yesyesN/A 3.hadoop版本支持HBa...

hbase原理

Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用rowkey快速访问数据,所以rowkey的设计是hbase性能提升的关键Hbase数据访问方式:-通过get方式,指定rowkey获得唯一一条记录-通过scan方式,设置startRow和stopROW参数进行范围匹配...

熟悉HBase基本操作【图】

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23 2015003Maryfemale22 2015003Lisimale24数学(Math)85 2. 用Hadoop提供的HBase Shell命令完成相同任务:列出HBase所有的表的相关信息;list在终端打印出学生表的所有记录数据;向学生表添加课程列族;向课程列族添...

hbase执行mapreduce任务报dns异常【代码】【图】

在最近的一个项目中有这样一个需求,我们的业务数据是存放在hbase中,一天大概新增五到六百万的,然后我这边需要做一件事是按小时把新增数据加载到impala中,并且数据需要按年月日三个字段分区。 起初想到的是直接在hive中建立一个表,然后在表上建立一个mapping映射到hbase中的表。但是考虑到分区,业务表中无法提供这些字段,所以另想它法。 后来想到的是用hbase中提供的TableMapper按时间截扫描(这里不用rowkey原因可以自...

HBase笔记6 过滤器【图】

过滤器  过滤器是GET或者SCAN时过滤结果用的,相当于SQL的where语句  HBase中的过滤器创建后会被序列化,然后分发到各个region server中,region server会还原过滤器并使用,这样scan中,不满足条件的结果不会返回客户端值过滤器: (针对所有列)  创建valueFilter实例: Filter filter=new ValueFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("xxxx"));      CompareFileter包含一个枚举类,CompareOp,包...

HBase 中的 JVM 与 GC【代码】【图】

HBase中JVM基本配置在JVM中,默认情况下会设置minimum heap size 为 1/64 可用物理内存,并为maximum heap size设置 1/4 的物理可用内存(不过在Java8 之前,默认最大是1g)。当然,我们可以通过手动指定 JVM 参数,配置JVM的内存,例如:-Xms10g -Xmx10g 在HBase 中,也可以在 hbase-env.sh 中显示指定堆内存大小,例如:# The maximum amount of heap to use. Default is left to JVM default.# export HBASE_HEAPSIZE=1G 这里有...

Hadoop实习操作练习1(Hive与HBase初探)【图】

Chapter 1: 引言 近期电信集团公司举办了大数据技术培训课,按照要求,Hadoop小白的我对两者作完对比,进行实际操作做一个练习记录吧,嘿嘿。。。两者的共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储两者的区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Had...

Hbase和Oracle的对比【图】

转自:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html转自:http://blog.csdn.net/allen879/article/details/40461227转自:http://blog.itpub.net/28912557/viewspace-776770/ 由于项目需要,将原来的系统升级需要用到Hbase技术,使用了之后发现,确实很不错。那么问题来了,为什么在这里要用Hbase,而不是以前的关系型数据库Oracle,他们各自有什么特点,应用场景有何不同?带着问题去学习效果会更好。 首先来...

spark1.0.2读取hbase(CDH0.96.1)上的数据【代码】【图】

基本环境:我是在win7环境下,spark1.0.2,HBase0.9.6.1 使用工具:IDEA14.1, scala 2.11.6, sbt。我现在是测试环境使用的是单节点1、使用IDEA创建一个sbt的工程后,在build.sbt文件加入配置文件libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.0.2" % "provided"libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.0.2" % "provided"libraryDependencies += "org.apache.hbase...

什么是HBase(五) HBase的运维工具

常用工具文件修复 hbck文件查看 hfileWAL查看工具 hlog压缩测试工具 compressTest(字段前缀编码以及block压缩设置后进行测试)数据迁移工具copyTable导出工具:export导入工具:import日志回放:WALPlayerregion和region server管理工具大合并工具 major_compact(关闭自动合并,然后手动(或者cron)在合适的时间点进行合并)小合并工具(只是同表的region文件合并) hbase merge节点下线(此法包含了优雅关机以及滚动重启) hba...

HBase集群下,相同数据库表名的隔离问题

HBase本身有命名空间的概念,所有数据库表可以定义在命名空间下:通过命名空间实现隔离:env COMPRESSION=NONE TSDB_TABLE=c2:tsdb UID_TABLE=c2:tsdb-uid TREE_TABLE=c2:tsdb-tree META_TABLE=c2:tsdb-meta HBASE_HOME=/home/hadoop/hbase-0.98.5-hadoop2 create_table.sh原文:http://my.oschina.net/yjwxh/blog/510510

大数据架构培训 视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算【图】

培训大数据架构开发!从零基础到高级,手把手培训![技术QQ:2937765541]? ?----------------------------------------------------------------------------------------------------------------------------------课程目录:获取视频资料和培训解答技术支持地址?课程展示(永久免费更新!永久免费培训解答技术支持!):获取视频资料和培训解答技术支持地址?原文:http://twskyn.iteye.com/blog/2289784

Hbase 出现 org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 错误【代码】

ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yetat org.apache.hadoop.hbase.master.HMaster.checkServiceStarted(HMaster.java:2372)at org.apache.hadoop.hbase.master.MasterRpcServices.isMasterRunning(MasterRpcServices.java:931)at org.apache.hadoop.hbase.protobuf.generated.MasterProtos$MasterService$2.callBlockingMethod(MasterProtos.java:55654)at org.apache.had...