首页 / HBASE / HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB

HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4702字，纯文字阅读大概需要7分钟。

内容图文

HBase Spark分析引擎是云数据库HBase版提供的分析引擎，基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源，例如：云HBase数据库、MongoDB、Phoenix等，同时也支持对接云数据库POLARDB。POLARDB是阿里云自研的下一代关系型云数据库，100%兼容MySQL，性能最高是MySQL的6倍。本文主要介绍HBase Spark分析引擎如何对接云数据库POLARDB。

场景介绍

POLARDB中经常会存储一些维度表信息，例如：用户维度表信息，包含用户的ID，姓名，地址等信息。此类数据的特点是数据量小，不经常改变。
Spark 中经常会存在一些海量事实表数据用于数据的分析，例如用户的通话信息、交易信息等。此类数据的特点是数据量大、增量更新。用户需要在这类数据中统计、分析挖掘有价值的内容。
例如：用户事实表数据一般包含用户的ID信息，在Spark侧对事实表统计分析时，对分析的结果需要补齐用户的其他信息，例如姓名、地址等。
这时就可以通过Spark分析引擎直接和POLARDB的数据表做关联查询和统计分析，而不用担心搬迁POLARDB的数据，以及搬迁数据带来的数据同步问题和额外的维护工作量。
下面就看下在Spark分析引擎中如何关联云数据库POLARDB。

在Spark分析引擎中创建表

本文中的SQL样例可以运行在Spark分析集群的SQL服务ThriftServer：

https://help.aliyun.com/document_detail/93902.html?spm=a2c4e.11153940.blogcont690754.15.454833521E4hrG

在Spark分析引擎中创建关联POLARDB表的语法如下：

create?table?jdbc_polordb
using?org.apache.spark.sql.jdbc
options?(
??url?"jdbc:mysql://pc-xxx.rwlb.rds.aliyuncs.com:3306",
??dbtable?"testdb.test_table",
??user?'testuser',
??password?'xxx'
)

样例使用的是Spark的JDBC DataSource API。每个参数意义如下：

jdbc:mysql://pc-xxx.rwlb.rds.aliyuncs.com:3306：POLARDB的数据库地址，从POLARDB集群中获取，可以是集群地址，主地址或者SQL加速地址，对应下图中POLARDB的连接地址：
HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB - 文章图片

testdb.test_table：testdb是POLARDB中创建的数据库名称，test_table为创建的表名称。
user和password分别对应登陆数据库的用户名和密码。

在Spark分析引擎中操作表

在Spark分析引擎中创建表后，可以直接在Spark分析引擎中操作POLARDB表。表的操作常用的有：查询表、插入数据、删除表。
1.查询样例：

select?*?from?jdbc_polordb?limit?5;
+-----+---------+--+
|?id??|??name???|
+-----+---------+--+
|?9???|?name9???|
|?15??|?name15??|
|?9???|?name99??|
|?28??|?name28??|
|?15??|?name15??|
+-----+---------+--+
select?*?from?jdbc_polordb?where?id?>=?96;
+------+-----------+--+
|??id??|???name????|
+------+-----------+--+
|?96???|?name96????|
|?99???|?name99????|
|?98???|?name98????|
|?99???|?name99????|
|?97???|?name97????|
|?100??|?name100???|
|?200??|?testdata??|
+------+-----------+--+

2.插入数据样例：

insert?into?jdbc_polordb?values(200,?'testdata');
+---------+--+
|?Result??|
+---------+--+
+---------+--+
select?*?from?jdbc_polordb?where?id=200;
+------+-----------+--+
|??id??|???name????|
+------+-----------+--+
|?200??|?testdata??|
+------+-----------+--+

3.与其他表join样例：

select?j.id,?j.name?from?jdbc_polordb?j?join?test_parquet?t?on?j.id?=?t.id;
+-----+--------+--+
|?id??|??name??|
+-----+--------+--+
|?1???|?name1??|
|?3???|?name3??|
|?5???|?name5??|
+-----+--------+--+

4. 删除表样例(Spark侧删除表不会删除POLARDB中的表)：

drop?table?jdbc_polordb;
+---------+--+
|?Result??|
+---------+--+
+---------+--+

Spark分析引擎查询POLARDB性能优化

Spark分析引擎中查询POLARDB表性能方面提供了如下的优化能力：
1.列值裁剪
根据用户的SQL语句在POLARDB中获取需要字段的数据。例如，POLARDB中的表test_table有四个字段，col1、col2、col3、col4。 Spark中的查询语句为：

select?col1,?col3?from?jdbc_polordb

则Spark分析引擎只会获取表test_table中col1和col3两个字段对应的数据，减少数据量的获取。

2.过滤条件下推
Spark分析引擎支持常用的过滤条件下推，例如：=,>,>=,<,<=,is null, is not null,like xx%, like %xx, like %xx%,in,not。查询SQL如：

select?*?from?jdbc_polordb?where?id?>=?96;
select?*?from?jdbc_polordb?where?id=200;

Spark分析引擎会把过滤条件id=200，id>=96下推到POLARDB，减少数据量的获取，提升查询性能。

3.分区并行读取
在Spark分析引擎中创建JDBC表时可以指定分区，查询会按照分区字段和分区数并发查询。语法如下：

create?table?jdbc_polordb
using?org.apache.spark.sql.jdbc
options?(
?url?"jdbc:mysql://pc-xxx.rwlb.rds.aliyuncs.com:3306",
?dbtable?"testdb.test_table",
?user?'testuser',
?password?'xxx',
?partitionColumn?'id',
?lowerBound?'20',
?upperBound?'80',
?numPartitions?'5'
)

partitionColumn：是需要分区的字段名称，对应POLARDB中表的字段；

lowerBound：为对应字段的下界值；
upperBound：为对应字段的上界值；
numPartitions：为分区数。
在此基础上执行select * from jdbc_polordb，Spark分析引擎会下发5个并行的Job查询POLARDB数据库。下图为Spark分析引擎的并行Job：

HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB - 文章图片

总结

Spark分析引擎作为大数据计算框架可以与云数据库POLARDB很容易结合在一起，在Spark分析引擎中非常便捷地关联、分析POLARDB的数据。本文简单介绍HBase Spark分析引擎与云数据库POLARDB结合的常用操作。更多内容欢迎大家使用HBase Spark分析引擎，云数据库POLARDB。

https://help.aliyun.com/document_detail/93899.html?spm=a2c4e.11153940.blogcont690754.16.45483352yIZFhW

https://help.aliyun.com/product/58609.html?spm=a2c4e.11153940.blogcont690754.17.45483352yIZFhW

HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB - 文章图片

内容总结

以上是互联网集市为您收集整理的HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB全部内容，希望文章能够帮你解决HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/860995.html

来源：【匿名】

【上一篇】HBase解读 | 阿里云HBase SQL(Phoenix)服务深度解读【下一篇】基于HBase Thrift接口的一些使用问题及相关注意事项的详解

更多 ►

【HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB】教程文章相关的互联网学习教程文章

HBase集群下，相同数据库表名的隔离问题

HBase本身有命名空间的概念，所有数据库表可以定义在命名空间下：通过命名空间实现隔离：env COMPRESSION=NONE TSDB_TABLE=c2:tsdb UID_TABLE=c2:tsdb-uid TREE_TABLE=c2:tsdb-tree META_TABLE=c2:tsdb-meta HBASE_HOME=/home/hadoop/hbase-0.98.5-hadoop2 create_table.sh原文：http://my.oschina.net/yjwxh/blog/510510

如何快速搭建HBase分布式NoSQL数据库

原文：http://blog.chinaunix.net/uid-25723371-id-4973888.html

【DB宝46】NoSQL数据库之CouchBase简介、集群搭建、XDCR同步及备份恢复【代码】【图】

[toc] 一、 CouchBase概述1.1、简述CouchBase是一款开源的、分布式的、面向文档的NoSQL数据库，主要用于分布式缓存和数据存储领域。能够通过manage cache提供快速的亚毫米级别的k-v存储操作，并且提供快速的查询和其功能强大的能够指定SQL-like查询的查询引擎。Couchbase是一个较新的、发展迅速的nosql数据库技术。2014年，viber宣布使用couchbase替换mongodb，以适应10亿级的用户量，目前，couchbase已大量运用于生产环境，国内使...

mongodb,redis,hbase 三者都是nosql数据库，他们的最大区别和不同定位是什么？

当SQL满足不了你的需求或者SQL 已经不是必须的或者最佳的选择时，就是你考虑这类NoSQL 的时候了。当你的内存大于你的数据时，schema也不是太确定时，mongodb在这里静静地等待My SQL转业户为了尝鲜过来看热闹的，不改变设计模式，爽在前面痛在后面;当你唯一追求的就是速度，又对memcached的过于简单心存芥蒂，刚好内存也比数据多时，redis俏生生站在那里;大，好大，太大了，我说的是数据，我们128GB内存双路CPU25TB存储只够一星期的...

局域网内任何一台pc上windows下eclipse远程连接hbase数据库

通过很长一段时间的反复失败，终于在windows下实现远程连接hbase数据库，在不断的尝试过程中深感一个详细的文档的重要性，于是就把我配置的详细过程记录下来。文中如果有些地方用词不当，或者理解错误，欢迎您们评论。一、运行平台hbase服务器端：Ubuntu 14.04 64位；HBASE1.1.3；JAVA 1.8；hbase客服端：windows32/64位；JAVA1.8；eclipse 4.5；二、linux服务器端环境配置1、安装java 1.8软件 1）下载java软件注：如果系统软件库...

使用sqoop将MySQL数据库中的数据导入Hbase

使用sqoop将MySQL数据库中的数据导入Hbase 前提：安装好 sqoop、hbase。下载jbdc驱动：mysql-connector-java-5.1.10.jar 将 mysql-connector-java-5.1.10.jar 拷贝到 /usr/lib/sqoop/lib/ 下MySQL导入HBase命令：sqoop import --connect jdbc:mysql://10.10.97.116:3306/rsearch --table researchers --hbase-table A --column-family person --hbase-row-key id --hbase-create-table --username‘root‘ -P说明：--connect jdbc...

OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储【图】

原文链接：http://www.jianshu.com/p/0bafd0168647OpenTSDB介绍1.1、OpenTSDB是什么？主要用途是什么？官方文档这样描述：OpenTSDB is a distributed, scalable Time Series Database (TSDB) written on top of HBase；翻译过来就是，基于Hbase的分布式的，可伸缩的时间序列数据库。主要用途，就是做监控系统；譬如收集大规模集群（包括网络设备、操作系统、应用程序）的监控数据并进行存储，查询。1.2、介绍continue存储到OpenTSD...

详细讲解Hadoop中的简单数据库HBase【图】

数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表格里的行可能有非常不同的列，只要用户喜欢这样做。写操作是行锁定的，你不能一次数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表...

[转载] 详细讲解Hadoop中的简单数据库HBase【图】

转载自http://www.csdn.net/article/2010-11-28/282614 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表格里的行可能有非常不同的列，只要用户喜欢这样做。列名是“<族名>:<标签>”形式，其中<族名>和<标签>可以是任意字符串。一个表格的<族名>集合（又叫“列族”集合）是固定的，除非你使用管理员权限来...

大数据之Hbase（一）：HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景【图】

文章目录 5.1 HBase简介什么是HBase BigTable 面向列的数据库什么是非结构化数据存储 HBase在Hadoop生态中的地位 HBase与HDFS HBase使用场景5.1 HBase简介 1 什么是HBaseHBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储2 BigTableBigTable是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库。适合大规模海量数据，PB级数...

NoSQL数据库 Couchbase Server - 分布式缓存

Couchbase Server （前身是 Membase）是一个分布式的面向文档的 NoSQL 数据库管理系统，该系统联合了 CouchDB 的简单和可靠以及 Memcached 的高性能以及 Membase 的伸缩性。原文：http://www.oschina.net/p/couchbase-server NoSQL数据库 Couchbase Server - 分布式缓存标签：本文系统来源：http://www.cnblogs.com/guo2001china/p/4864337.html

《大数据技术应用与原理》第二版-第四章分布式数据库HBase

4.1概述HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化松散数据。 HBase与传统数据库的区别数据类型上的区别，它把数据存储为未经解释的字符串数据操作，没有像关系型数据库那样的复杂数据操作，通常采用单表的主键查询。存储模式，关系型数据库是采用行进行存储的，但是HBase是采用列存储的。数据索引，HBase只有一个索引，就是行键。数据维护，HBase中...

Couchbase整合完毕推出新版NoSQL数据库【图】

Couchbase日前宣布推出其新版的NoSQL数据服务器Couchbase Server。该产品基于Apache CouchDB，并整合了GeoCouch（一个基于Erlang、紧密集成的地理空间索引系统，可支持LBS应用）。 Couchbase公司是由CouchOne与Membase合并组成，但合并后推出的第一款产品Cou Couchbase日前宣布推出其新版的NoSQL数据服务器——Couchbase Server。该产品基于Apache CouchDB，并整合了GeoCouch（一个基于Erlang、紧密集成的地理空间索引系统，可支持...

【DB宝46】NoSQL数据库之CouchBase简介、集群搭建、XDCR同步及备份恢复【图】

文章目录一、 CouchBase概述1.6.1、DCP (Database Change Protocol)1.6.2、XDCR (Cross Data Center Replication)1.2.1、CouchDB和CouchBase的相同之处1.2.2、CouchDB和CouchBase的不同之处1.1、简述1.2、CouchDB和CouchBase比对1.3、CouchBase的社区版和企业版的区别1.4、Couchbase名词术语1.5、Couchbase和RMDB对比1.6、数据同步协议二、复制2.2.1、集群内复制（单集群内复制）2.2.2、跨数据中心复制（多集群间复制）--XDCR2.1、...

CouchBase数据库-一个较新的、发展迅速的nosql数据库技术【代码】【图】

couchbase是一个较新的、发展迅速的nosql数据库技术。2014年，viber宣布使用couchbase替换mongodb，以适应10亿级的用户量，目前，couchbase已大量运用于生产环境，国内使用的公司主要有新浪，腾讯等。由于中文资料较少，阅读了官方文档中的部分介绍后，将资料翻译和汇总如下。概述 couchbase是CouchDB和MemBase的合并。而memBase是基于Memcached的。因此couchbase联合了couchbase的简单可靠和memcached的高性能，以及...

引擎 - 相关标签

引擎优化

HBASE - 最热教程

深入分析HBaseRPC(Protobuf)实现机制 HBase应用与发展之HBase RowKey与索引设...python – couchbase因为太大而无法存储 Apache NiFi之MySQL数据同步到HBase python使用happybase批量的操作hbase hbase是否能取代mysql HBase方案 | 基于Lindorm的互联网账单解...排查生产环境HBase RegionServer节点无...HBase的region管理深入HBASE原理详解

首页 / HBASE / HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB

HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB

内容导读

内容图文

场景介绍

在Spark分析引擎中创建表

在Spark分析引擎中操作表

Spark分析引擎查询POLARDB性能优化

总结

内容总结

内容备注

内容手机端

【HBase应用 | 云HBase Spark分析引擎对接云数据库POLARDB】教程文章相关的互联网学习教程文章

HBase集群下，相同数据库表名的隔离问题

如何快速搭建HBase分布式NoSQL数据库

【DB宝46】NoSQL数据库之CouchBase简介、集群搭建、XDCR同步及备份恢复【代码】【图】

mongodb,redis,hbase 三者都是nosql数据库，他们的最大区别和不同定位是什么？

局域网内任何一台pc上windows下eclipse远程连接hbase数据库

使用sqoop将MySQL数据库中的数据导入Hbase

OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储【图】

详细讲解Hadoop中的简单数据库HBase【图】

[转载] 详细讲解Hadoop中的简单数据库HBase【图】

大数据之Hbase（一）：HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景【图】

NoSQL数据库 Couchbase Server - 分布式缓存

《大数据技术应用与原理》第二版-第四章分布式数据库HBase

Couchbase整合完毕推出新版NoSQL数据库【图】

【DB宝46】NoSQL数据库之CouchBase简介、集群搭建、XDCR同步及备份恢复【图】

CouchBase数据库-一个较新的、发展迅速的nosql数据库技术【代码】【图】

数据库 - 相关标签

引擎 - 相关标签

HBASE - 最新教程

HBASE - 最热教程