mysql – 使用Hive进行实时查询
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了mysql – 使用Hive进行实时查询,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1938字,纯文字阅读大概需要3分钟。
内容图文
首先,我想澄清一下,我正在学习Hive和Hadoop(以及一般的大数据),所以请原谅缺乏适当的词汇.
我正在开始一个巨大的(至少对我而言)项目,这个项目需要处理大量的数据,这些数据在过去我并不常用,因为我一直主要使用MySQL.
对于这个项目,一系列传感器每小时产生大约125.000.000个数据点(每天15.000.000.000),这比我在每个MySQL表中组合的所有内容都要多几倍.
我知道一种方法是使用Hadoop MapReduce和Hive来查询和分析数据.
我面临的问题是,对于我能学到的东西,我理解Hive主要像“cron jobs”而不是实时查询,可能需要很长时间才需要不同的基础设施.
我想基于Hive查询的结果创建MySQL表,因为最多需要实时查询的数据大约是1.000.000.000行,但我想知道这是否是正确的方法或我应该研究一些其他技术.
我是否应该研究哪种技术专门针对大数据进行实时查询?
任何提示将不胜感激!
解决方法:
这是一个复杂的问题.让我们首先解决您在问题中提到的技术,并从那里开始:
> MySQL:任何使用MySQL(或任何其他关系数据库)的人都应该明白,传统的MySQL开箱即用安装永远不会支持你所谈论的卷.包络计算的背面足以告诉我们 – 假设你的传感器插入只有100个字节,你说的是150亿x 100字节= 1.5万亿字节或每天1.396太字节.这是真正的大数据,特别是如果您计划将其存储超过一天或两天.
> Hive:Hive当然可以处理那种数据量(我和其他许多人已经完成了它),但正如你所指出的那样,你不会得到实时查询.每个查询都是批处理的,如果您需要快速查询,则需要预先汇总数据.
现在,这将我们带到真正的问题 – 您需要运行什么样的查询?如果您需要运行任意的实时查询并且无法预测这些查询可能是什么,那么您可能需要考虑比较昂贵的专有数据存储,如Vertica,Greenplum,Microsoft PDW等.这些将花费大量成本.金钱,但他们和其他人可以处理你正在谈论的负担.
另一方面,如果您可以准确地预测将要运行的查询类型,那么像Hive这样的东西可能会有意义.将原始数据存储在那里,并使用批处理查询功能来完成繁重工作,并定期在MySQL或其他关系数据库中创建聚合数据表,以支持您对低延迟查询的需求.
还有一种选择就像HBase. HBase为您提供对分布式数据的低延迟访问,但是您丢失了两个您可能习惯使用的关键项 – 查询语言(HBase没有SQL)以及聚合数据的能力.要在HBase中进行聚合,您需要运行MapReduce作业,但该作业可以将其结果存储回HBase,以便再次进行低延迟访问.
内容总结
以上是互联网集市为您收集整理的mysql – 使用Hive进行实时查询全部内容,希望文章能够帮你解决mysql – 使用Hive进行实时查询所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。