首页 / HBASE / 深入分析HBase-Phoenix执行机制与原理

深入分析HBase-Phoenix执行机制与原理

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了深入分析HBase-Phoenix执行机制与原理，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6347字，纯文字阅读大概需要10分钟。

内容图文

针对HBase上SQL解决方案，目前社区内比较热门的有Cloudera的Impala，Horntworks的Drill，以及Hive。根据与HBase的操作方式，可以分为三种：

以MapReduce为核心，单个任务使用hbase-client原始接口访问；

以Google Dremel为核心，单个任务使用hbase-client原始接口访问；

以HBase-Coprocessor为核心，结合Google Dremel的思想，客户端合并多个节点的处理结果。

Phoenix的安装:

1）git clone?https://github.com/forcedotcom/phoenix.git

2）安装apache-maven，可以自行google

3）mvn process-sources

4）mvn package -DskipTests

5）拷贝phoenix-{versionid}.jar到HBASE_HOME/lib/下，重启RS

6）java -jar?phoenix-{versionid}-client.jar $(zkquorum) example/web_stat.sql example/web_stat.csv?//导入数据

7）java -jar?phoenix-{versionid}-client.jar $(zkquorum) example/web_stat_query.sql //执行查询

对于SQL查询的解析过程：

antlr3/PhoenixSQL.g ?===antlr===〉

ls ${PHOENIX_HOME}/target/generated-sources/antlr3/com/salesforce/phoenix/parse
PhoenixSQLLexer.java? PhoenixSQLParser.java? PhoenixSQL.tokens

这里以一条Select语句为例子介绍其中的流程：

SELECT DOMAIN, AVG(CORE) Average_CPU_Usage, AVG(DB) Average_DB_Usage

FROM WEB_STAT
GROUP BY DOMAIN
ORDER BY DOMAIN DESC;

1）提交的SQL语句，?PhoenixSQLLexer执行词法解析。注意这里的PhoenixSQLLexer是从src/antlr3/PhoenixSQL.g，经过antlr的翻译，生成的java代码。

目前SQL语句中可以识别的Token有：

tokens
{
SELECT=’select’;
FROM=’from’;
USING=’using’;
WHERE=’where’;
NOT=’not’;
AND=’and’;
OR=’or’;
NULL=’null’;
TRUE=’true’;
FALSE=’false’;
LIKE=’like’;
AS=’as’;
OUTER=’outer’;
ON=’on’;
IN=’in’;
GROUP=’group’;
HAVING=’having’;
ORDER=’order’;
BY=’by’;
ASC=’asc’;
DESC=’desc’;
NULLS=’nulls’;
LIMIT=’limit’;
FIRST=’first’;
LAST=’last’;
DATA=’data’;
CASE=’case’;
WHEN=’when’;
THEN=’then’;
ELSE=’else’;
END=’end’;
EXISTS=’exists’;
IS=’is’;
FIRST=’first’;
DISTINCT=’distinct’;
JOIN=’join’;
INNER=’inner’;
LEFT=’left’;
RIGHT=’right’;
FULL=’full’;
BETWEEN=’between’;
UPSERT=’upsert’;
INTO=’into’;
VALUES=’values’;
DELETE=’delete’;
CREATE=’create’;
DROP=’drop’;
PRIMARY=’primary’;
KEY=’key’;
ALTER=’alter’;
COLUMN=’column’;
TABLE=’table’;
ADD=’add’;
SPLIT=’split’;
EXPLAIN=’explain’;
VIEW=’view’;
IF=’if’;
CONSTRAINT=’constraint’;
}

2）根据PhoenixSQLParser的解析确定com.salesforce.phoenix.jdbc.PhoenixStatement.ExecutableStatement(Interface)的类型，目前有如下几类：

增删数据：ExecutableAddColumnStatement、ExecutableDropColumnStatement
创建/删除表格：ExecutableCreateTableStatement、ExecutableDropTableStatement
Select操作：ExecutableSelectStatement
导入数据：ExecutableUpsertStatement
解释执行：ExecutableExplainStatement

3）执行(2)中提供的实例化的ExecutableStatement提供executeQuery方法：

创建QueryCompiler。
执行compile过程。(识别limit、having、where、order、projector等操作，生成ScanPlan）
封装Scanner，并根据识别出的修饰词，对于结果进行修饰，整合出ResultIterator的各种功能的实现，具体在com.salesforce.phoenix.iterator包下。
该SQL对应的包装类为：OrderedAggregatingResultIterator.//它是如何组织数据，保证数据按照DESC或者ASC的方式展示？

在Delegator当中创建：

rowAggregators = {

instance of com.salesforce.phoenix.expression.function.CountAggregateFunction$1(id=2409), instance of com.salesforce.phoenix.expression.function.CountAggregateFunction$1(id=2410), instance of com.salesforce.phoenix.expression.aggregator.LongSumAggregator(id=2411), instance of com.salesforce.phoenix.expression.aggregator.LongSumAggregator(id=2412)
}

对于创建表格的逻辑：

1）解析SQL，翻译可执行的ExecutableCreateTableStatement，实例化MutationPlan。

2）创建MetaDataClient对象，将解析出的Statement转换成PTable的模型，更新SYSTEM.TABLE中的内容.（如果SYSTEM.TABLE不存在，还需要创建该表）

3）调用PhoenixConnection.addTable操作，这里会根据ConnectionQueryServicesImpl执行相关的服务。

4）加载Coprocessor。

? ? ? ? ? ? descriptor.addCoprocessor(ScanRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(UngroupedAggregateRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(GroupedAggregateRegionObserver.class.getName(), phoenixJarPath, 1, null);
descriptor.addCoprocessor(HashJoiningRegionObserver.class.getName(), phoenixJarPath, 1, null);

这里加载的Coprocessor有：

ScanRegionObserver:封装RegionObserver.postScannerOpen接口，捕获出现的异常。即在scanner开启之后，做基本遍历，属于基础类实现。

UngroupedAggregateRegionObserver:

GroupedAggregateRegionObserver

HashJoiningRegionObserver

会在RegionCoprocessorHost的组织下，分别执行这四个类的doPostScanOpen操作，会根据QueryPlan以及Statement中包含的信息，进行功能筛选和组装，最终被返回的结果，是已经按照需求处理过的，从而实现类似于GroupBy、Sort等操作。

2）

Coprocessor机制：

包括两部分，Observer和Endpoint

Observer有RegionObserver、WALObserver、MasterObserver。用来实现固定执行点的”插桩”的功能，有点像关系型数据库当中的触发器的功能。

这里以RegionObserver的实现为例，介绍一下其中实现细节。

1）为Table加载Observer接口的实现类。

2）客户端调用某个操作的位置时，调用接口。例如，RegionObserver的postScannerOpen()会在执行scannerOpen之后执行。

3）每一个Region设置一个RegionCoprocessorHost，负责管理加载到该Region的Coprocessor。

4）每一个Region设置一个RegionCoprocesorEnvironment，封装在ObserverContext当中，作为执行Coprocessor的上下文环境。

Endpoint不同于Observer，虽然它也是被加载到Region上，但是它的执行方式，是由Client端借助Table.coprocessorExec执行，是client到Regions的一次或者多次RPC操作，有时可能还需要在Client端对获取到的数据进行合并。可以查看一例：使用Coprocessor进行RowCount统计?http://www.binospace.com/index.php/make-your-hbase-better-2/

本系列文章属于Binos_ICT在Binospace个人技术博客原创，原文链接为http://www.binospace.com/index.php/in-depth-analysis-hbase-phoenix,未经允许，不得转载。

From Binospace, post 深入分析HBase-Phoenix执行机制与原理

文章的脚注信息由WordPress的wp-posturl插件自动生成

Copyright © 2008
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

内容总结

以上是互联网集市为您收集整理的深入分析HBase-Phoenix执行机制与原理全部内容，希望文章能够帮你解决深入分析HBase-Phoenix执行机制与原理所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/556633.html

来源：【匿名】

【上一篇】HBaseShell常用操作【下一篇】基于HBase Thrift接口的一些使用问题及相关注意事项的详解

更多 ►

【深入分析HBase-Phoenix执行机制与原理】教程文章相关的互联网学习教程文章

记一次OGG数据写入HBase的丢失数据原因分析【代码】【图】

一、现象二、原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息发送类2.3.4 Kafka 分区获取方式三、结论一、现象目前我们的数据是通过OGG->Kafka->Spark Streaming->HBase。由于之前我们发现HBase的列表put无法保证顺序，因此改了程序，如果是在同一个SparkStreaming的批次里面对同一条数据进行操作，则写入HBase的数据时间戳就非常相近，只会差几毫秒，...

akka-persistence-hbase-master源码分析之创建Journal表【代码】

akka-persistence-hbase-master是负责akka持久化的组件，采用async方式来操作hbase,讲akka的日志持久化到hbase中。　akka-persistence-hbase-master持久化之前首先要创建Journal表，关于表的配置存放在application.conf文件中，akka.persistence.hbase.journal.HBaseJournalInit对象负责关于Journal表的管理，获取hbase配置的代码如下： def getHBaseConfig(config: Config): Configuration = {val c = new Configuration()val jo...

hbase split log源码分析

原文：http://blackproof.iteye.com/blog/2199242

hbase split 源码分析之split策略【代码】

在工作中接触到split，于是查看了这块的源代码，先看到了split的策略，今天就说说这个吧，后续还会有split的其他源码分析和compact相关的源码分析。看了很多其他人的博客，很多都是转发的，原创的也都没有注明是哪个版本。其实给很多读者造成混淆，我这里是基于Hbase-0.98.13 版本作为分析的，注意：不同版本的此部分源码很可能不一样。在这个版本中使用的split策略是IncreasingToUpperBoundRegionSplitPolicy。确切来...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【图】

从零基础到高级，一对一培训！[技术QQ：2937765541] ------------------------------------------------------------------------------------------------------------------------------------------- 课程体系：获取视频资料和培训解答技术支持地址课程展示(大数据技术很广，一直在线为你培训解答！)：获取视频资料和培训解答技术支持地址大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeep...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

从零基础到高级，一对一技术培训！全程技术指导！[技术QQ：2937765541] https://item.taobao.com/item.htm?id=535950178794 ------------------------------------------------------------------------------------- Java互联网架构师培训！https://item.taobao.com/item.htm?id=536055176638大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互...

spark（8）spark案例之WordCount、点击流日志分析、写入数据到mysql/hbase、IP地址查询【代码】【图】

案例1：使用Java实现spark的wordCount 案例需求：单词计数第一步：创建maven工程，引入依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.3.3</version></dependency> </dependencies> 第二步：代码开发说明：使用Java编写spark程序，其实跟scala的步骤是一样的，只不过写法有点变化而已。 scala的RDD对应Java中的JavaRDD scala的SparkContext对应Java中的...

Python中HBase的操作示例代码分析

安装HBaseHBase是一个构建在HDFS上的分布式列存储系统，主要用于海量结构化数据存储。这里，我们的目标只是为Python访问HBase提供一个基本的环境，故直接下载二进制包，采用单机安装。下载后解压，修改配置文件，然后可以直接启动HBase了。所用系统版本为ubuntu14.04。下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.2.4/hbase-1.2.4-bin.tar.gz tar zxvf hbase-1.2.4-bin.tar.gz配置修改hbase-env.sh，设置JAVA_H...

HBase源码分析之GET操作之get转化为scan【图】

HBase源码分析之GET操作之get转化为scan 1，还是先看构造函数 public Get(byte [] row) { this(row, null); } public Ge HBase源码分析之GET操作之get转化为scan 1，还是先看构造函数public Get(byte [] row) { this(row, null); }public Get(byte [] row, RowLock rowLock) { this.row = row; if(rowLock != null) { this.lockId = rowLock.getLockId(); } }public Get addFamily(byte [] family) { family...

HBase优化案例分析：FacebookMessages系统问题与解决方案

HDFS设计的初衷是为了存储大文件（例如日志文件），面向批处理、顺序I/O的。然而架设在HDFS之上的HBase设计的初衷却是为了解决海量数据的随机读写的请求。把这两种设计初衷截然相反的组件怎么揉在一起的呢？这种分层的结构设计主要是为了使架构更清晰，HBaseHDFS设计的初衷是为了存储大文件（例如日志文件），面向批处理、顺序I/O的。然而架设在HDFS之上的HBase设计的初衷却是为了解决海量数据的随机读写的请求。把这两种设计初衷截...

HBase深入分析之RegionServer【图】

HBase深入分析之RegionServer 所有的用户数据以及元数据的请求，在经过Region的定位，最终会落在RegionServer上，并由RegionServer实现数据的读写操作。本小节将重点介绍RegionServer的代码结构和功能，从实现细节上深入理解RegionServer对于数据的操作流程HBase深入分析之RegionServer 所有的用户数据以及元数据的请求，在经过Region的定位，最终会落在RegionServer上，并由RegionServer实现数据的读写操作。本小节将重点介绍Regi...

深入分析HBaseRPC(Protobuf)实现机制【图】

背景在HMaster、RegionServer内部，创建了RpcServer实例，并与Client三者之间实现了Rpc调用，HBase0.95内部引入了Google-Protobuf作为中间数据组织方式，并在Protobuf提供的Rpc接口之上，实现了基于服务的Rpc实现，本文详细阐述了HBase-Rpc实现细节。 HBase背景在HMaster、RegionServer内部，创建了RpcServer实例，并与Client三者之间实现了Rpc调用，HBase0.95内部引入了Google-Protobuf作为中间数据组织方式，并在Protobuf提供的...

深入分析HBase-Phoenix执行机制与原理

针对HBase上SQL解决方案，目前社区内比较热门的有Cloudera的Impala，Horntworks的Drill，以及Hive。根据与HBase的操作方式，可以分为三种：以MapReduce为核心，单个任务使用hbase-client原始接口访问；以Google Dremel为核心，单个任务使用hbase-client原针对HBase上SQL解决方案，目前社区内比较热门的有Cloudera的Impala，Horntworks的Drill，以及Hive。根据与HBase的操作方式，可以分为三种：以MapReduce为核心，单个任务使用h...

华为hbase二级索引（secondaryindex）细节分析【图】

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案，这在业界引起极大的反响，甚至有人认为，如果华为早点公布这个方案，hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。更新：目前该方案华为已经华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案，这在业界引起极大的反响，甚至有人认为，如果华为早点公布这个方案，hbase的某些问题早就解决了。其...

hbase源码分析（目录）

半年没有写博客了，正好趁着放假读一下hbase代码。包含几块内容： 1）hbase的几个核心流程，粗略地了解核心流程的代码实现 2）针对核心流程，提出相应的问题，并从代码实现的细节上对问题进行解答先是核心流程部分：put流程 get流程 compact流程 replication流程 replay流程 loadbalance流程 coprocessor原理 todo......问题部分： todo......

执行 - 相关标签

执行程序

HBASE - 最热教程

深入分析HBaseRPC(Protobuf)实现机制 HBase应用与发展之HBase RowKey与索引设...python – couchbase因为太大而无法存储 Apache NiFi之MySQL数据同步到HBase python使用happybase批量的操作hbase HBase方案 | 基于Lindorm的互联网账单解...排查生产环境HBase RegionServer节点无...hbase是否能取代mysql HBase的region管理深入HBASE原理详解

首页 / HBASE / 深入分析HBase-Phoenix执行机制与原理

深入分析HBase-Phoenix执行机制与原理

内容导读

内容图文

内容总结

内容备注

内容手机端

【深入分析HBase-Phoenix执行机制与原理】教程文章相关的互联网学习教程文章

执行 - 相关标签

HBASE - 最新教程

HBASE - 最热教程