首页 / MYSQL / mysql – 使用Hive进行实时查询

mysql – 使用Hive进行实时查询

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了mysql – 使用Hive进行实时查询，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1938字，纯文字阅读大概需要3分钟。

内容图文

首先,我想澄清一下,我正在学习Hive和Hadoop(以及一般的大数据),所以请原谅缺乏适当的词汇.

我正在开始一个巨大的(至少对我而言)项目,这个项目需要处理大量的数据,这些数据在过去我并不常用,因为我一直主要使用MySQL.

对于这个项目,一系列传感器每小时产生大约125.000.000个数据点(每天15.000.000.000),这比我在每个MySQL表中组合的所有内容都要多几倍.

我知道一种方法是使用Hadoop MapReduce和Hive来查询和分析数据.

我面临的问题是,对于我能学到的东西,我理解Hive主要像“cron jobs”而不是实时查询,可能需要很长时间才需要不同的基础设施.

我想基于Hive查询的结果创建MySQL表,因为最多需要实时查询的数据大约是1.000.000.000行,但我想知道这是否是正确的方法或我应该研究一些其他技术.

我是否应该研究哪种技术专门针对大数据进行实时查询？

任何提示将不胜感激！

解决方法:

这是一个复杂的问题.让我们首先解决您在问题中提到的技术,并从那里开始：

> MySQL：任何使用MySQL(或任何其他关系数据库)的人都应该明白,传统的MySQL开箱即用安装永远不会支持你所谈论的卷.包络计算的背面足以告诉我们 – 假设你的传感器插入只有100个字节,你说的是150亿x 100字节= 1.5万亿字节或每天1.396太字节.这是真正的大数据,特别是如果您计划将其存储超过一天或两天.
> Hive：Hive当然可以处理那种数据量(我和其他许多人已经完成了它),但正如你所指出的那样,你不会得到实时查询.每个查询都是批处理的,如果您需要快速查询,则需要预先汇总数据.

现在,这将我们带到真正的问题 – 您需要运行什么样的查询？如果您需要运行任意的实时查询并且无法预测这些查询可能是什么,那么您可能需要考虑比较昂贵的专有数据存储,如Vertica,Greenplum,Microsoft PDW等.这些将花费大量成本.金钱,但他们和其他人可以处理你正在谈论的负担.

另一方面,如果您可以准确地预测将要运行的查询类型,那么像Hive这样的东西可能会有意义.将原始数据存储在那里,并使用批处理查询功能来完成繁重工作,并定期在MySQL或其他关系数据库中创建聚合数据表,以支持您对低延迟查询的需求.

还有一种选择就像HBase. HBase为您提供对分布式数据的低延迟访问,但是您丢失了两个您可能习惯使用的关键项 – 查询语言(HBase没有SQL)以及聚合数据的能力.要在HBase中进行聚合,您需要运行MapReduce作业,但该作业可以将其结果存储回HBase,以便再次进行低延迟访问.

内容总结

以上是互联网集市为您收集整理的mysql – 使用Hive进行实时查询全部内容，希望文章能够帮你解决mysql – 使用Hive进行实时查询所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/909797.html

来源：【匿名】

【上一篇】MySql IF存在select ELSE insert 【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【mysql – 使用Hive进行实时查询】教程文章相关的互联网学习教程文章

sqoop同步mysql数据到hive中【图】

一、sqoop 在同步mysql表结构到hive sqoop create-hive-table --connect jdbc:mysql://ip:3306/sampledata --table t1--username dev --password 1234 --hive-table t1; 执行到这一步就退出了，但是在hadoop的hdfs上的/hive/warehouse/的目录下是找不到t1表的目录,但是正常执行完成是下面这样的：错误就是hive的jar包有缺失全部的jar包该是这样的：这是hadoop-2.2.0和hbase-0.96.2和hive-0.13.1整合的全部jar包还有就是sqoop-1....

hive 的mysql配置【代码】

hive默认使用的是Derby数据库，Derby是一个嵌入式数据库，数据库一般创建在运行hive命令的目录，如果切换目录运行，则找不到数据库 hive mysql配置：官网地址：https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin hive配置文件目录下创建文件：hive-site.xml，配置如下<configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost/hive?createDatabaseIfNotEx...

Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.【代码】

首先检验Hive元数据是否正常，如果Hive元数据正常使用，请在oozie配置文件workflow.xml中增加配置：<property><name>hive.metastore.uris</name><value>thrift://192.168.2.21:9083</value></property>具体原因需要再排查，可能是由于环境变量导致参考：cdh5版本中的oozie hive action使用及踩坑集锦Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check you...

如何利用sqoop将hive数据导入导出数据到mysql【图】

运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具。上海尚学堂hadoop大数据培训组原创，陆续有hadoop大数据技术相关文章奉上，请多关注！在使用过程中可能遇到的问题：sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz，解...

spark集成hive遭遇mysql check失败的问题【代码】

问题： spark集成hive，启动spark-shell或者spark-sql的时候，报错：INFO MetaStoreDirectSql: MySQL check failed, assuming we are notonmysql: Lexical error atline1, column 5. Encountered: "@" (64), after : "".环境： spark-1.4 hive-1.2.1 mysql-5.1 jdbc驱动原因：查看hive的源码MetaStoreDirectSql的构造方法：publicMetaStoreDirectSql(PersistenceManager pm) {this.pm = pm;Transaction tx = pm.currentTr...

hive 中与mysql 中函数同名不同意的方法记录

max 函数在hive中max函数是一个聚合函数,所以,而且返回值是double ,而且后面必须跟group by ,这个和mysql差异很大Built-in Aggregate Functions (UDAF)DOUBLEmax(col)Returns the maximum value of the column in the group.mysql 中Returns the maximum value of expr. MAX() may take a string argument; insuch cases, it returns the maximum string value. Seehttp://dev.mysql.com/doc/refman/5.1/en/mysql-indexes.html. T...

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

一、引言　Hive元数据存储可以放到RDBMS数据库中，本文以Hive与MySQL数据库的整合为目标，详细说明Hive与MySQL的整合方法。二、安装驱动MySQL最新的Java驱动版本为：mysql-connector-java-5.1.28-bin.jar，下载后拷贝到：Hive/Lib目录。三、安装MySQL　　3.1 版本　　RHEL5+mysql-5.5.35-1.i386.rpm　　3.2 顺序　　　　MySQL-shared-compat-5.5.35-1.rhel15.i386.rpm MySQL-server-5.5.35-1.rhel5.i386.rpm MySQL-clien...

详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出【图】

一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL，但可以先将HBase中的数据导出到HDFS中，再将数据导出到MySQL。三、使用Sqoop将Oracle中的数据导入到HDFS/Hive/HBase 下面只给出将Oracle中的数据导入HBase，其他情况下的命令行选项与MySQL的操作相似 OK！最好的文档尽在：http://sqoop.apach...

安装Hive(独立模式使用mysql连接)【代码】

安装Hive(独立模式使用mysql连接)1.默认安装了java+hadoop 2.下载对应hadoop版本的安装包 3.解压安装包tar zxvf apache-hive-1.2.1-bin.tar.gz 4.安装mysqlyum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要配置yum源mysql常用命令:service mysqld start/stopchkconfig mysqld on //加入开机启动以系统root用户操作 5.授权mysql(以系统hadoop身份数据库root身份进行操作)mysqladmin -u root pa...

hive 与MySQL 的差别

总结 1. Hive数据表分区、分桶的作用分区表产生不同的目录：避免全表扫描分桶表产生不同的文件： jion 速度快和桶抽样2. Hive常用的3复合数据类型及访问方式select * from emp_partitioninner join salariesonsalaries.emp_no is not null andemp_partition.emp_no is not null andemp_partition.emp_no = salaries.emp_no select * from emp_partition --emp_partition 表小放到左侧inner join salariesonsalaries.emp_no is ...

Hive 安装 & Mysql 安装【图】

安装Hive && mysql(1)安装HiveHive安装所需要的依赖（安装Hive前必须先安装jdk、hadoop）　　　　1）jdk1.6以上　　　　2）Hadoop要启动未安装jdk、hadoop可参考文章：https://www.cnblogs.com/wendyw/p/11317021.htmlHive下载、解压　　　　下载路径：http://apache.cs.utah.edu/hive/hive-0.11.0/　　　　将hive-0.11.0.tar.gz解压到/usr/local中　　　　tar -zxvf hive-0.11.0.tar.gz　　　　产生hive的安装目...

sqoop从hive导入数据到mysql时出现主键冲突【代码】

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况，搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令，该死的oozie的日志和异常提示功能太辣鸡了，最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。（1）众所周知hive表是没有主键与索引的，但是mysql的表一般在创建时就会指定主键，所以在把hive表中的数据导入mysql表的时候通常会使用...

对比hive和mysql 复杂逻辑流处理【图】

1.Mysql中可用存储过程和函数来实现复杂逻辑处理，两者的对比如下：存储过程作为可执行文件，编译一次放在数据库中，函数又返回值。可设定使用权限。存储过程中可使用游标，声明变量。用call调用。 2.Hive可用udf（user defined function）来实现复杂逻辑处理编辑Python脚本常用的Python字符串分割处理函数有：split 等等加载udf 调用udf HQL语法可将返回结果重新写入其他表内，此时 as后字段和插入表字段一致。原文：h...

Hive_元数据配置到MySQL【代码】

驱动拷贝1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包[root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/opt/module/hive/lib/[root@hadoop102 mysql-connector-java-5.1.27]# cp mysql-connector-java-5.1.27-bin.jar /opt/module/hive/lib/配置Metas...

hive安装--设置mysql为远端metastore【图】

作业任务：安装Hive，有条件的同学可考虑用mysql作为元数据库安装（有一定难度，可以获得老师极度赞赏），安装完成后做简单SQL操作测试。将安装过程和最后测试成功的界面抓图提交 . 已有的当前虚拟机：总共三台虚拟机，使用CentOS。一台是NameNode，另两台为DataNode，由于搭载虚拟机的内存不是很足，所以不打算再新增一台虚拟机来另外安装mysql，所以选择其中一台datanode虚拟机来安装mysql，由于很早时候已经安装布署了hadoop...

首页 / MYSQL / mysql – 使用Hive进行实时查询

mysql – 使用Hive进行实时查询

内容导读

内容图文

内容总结

内容备注

内容手机端

【mysql – 使用Hive进行实时查询】教程文章相关的互联网学习教程文章

sqoop同步mysql数据到hive中【图】

hive 的mysql配置【代码】

Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.【代码】

如何利用sqoop将hive数据导入导出数据到mysql【图】

spark集成hive遭遇mysql check失败的问题【代码】

hive 中与mysql 中函数同名不同意的方法记录

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出【图】

安装Hive(独立模式使用mysql连接)【代码】

hive 与MySQL 的差别

Hive 安装 & Mysql 安装【图】

sqoop从hive导入数据到mysql时出现主键冲突【代码】

对比hive和mysql 复杂逻辑流处理【图】

Hive_元数据配置到MySQL【代码】

hive安装--设置mysql为远端metastore【图】

MYSQL - 相关标签

实时 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程