首页 / MYSQL / mysql – Spark SQL / Hive查询永远加入

mysql – Spark SQL / Hive查询永远加入

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了mysql – Spark SQL / Hive查询永远加入，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2250字，纯文字阅读大概需要4分钟。

内容图文

所以我做的事情应该很简单,但显然它不是在Spark SQL中.

如果我在MySQL中运行以下查询,查询将在几分之一秒内完成：

SELECT ua.address_id
FROM user u
inner join user_address ua on ua.address_id = u.user_address_id
WHERE u.user_id = 123;

但是,在Spark(1.5.1)下的HiveContext中运行相同的查询需要超过13秒.添加更多联接会使查询运行很长时间(超过10分钟).我不确定我在这里做错了什么以及如何加快速度.

这些表是作为临时表加载到Hive上下文中的MySQL表.这是在单个实例中运行,数据库在远程计算机上运行.

>用户表有大约480万行.
> user_address表有350,000行.

这些表具有外键字段,但在db中没有定义明确的fk关系.我正在使用InnoDB.

Spark中的执行计划：

计划：

Scan
JDBCRelation(jdbc:mysql://.user,[Lorg.apache.spark.Partition;@596f5dfc,
{user=, password=, url=jdbc:mysql://, dbtable=user})
[address_id#0L,user_address_id#27L]

Filter (user_id#0L = 123) Scan
JDBCRelation(jdbc:mysql://.user_address,
[Lorg.apache.spark.Partition;@2ce558f3,{user=, password=,
url=jdbc:mysql://, dbtable=user_address})[address_id#52L]

ConvertToUnsafe ConvertToUnsafe

TungstenExchange hashpartitioning(address_id#52L) TungstenExchange
hashpartitioning(user_address_id#27L) TungstenSort [address_id#52L
ASC], false, 0 TungstenSort [user_address_id#27L ASC], false, 0

SortMergeJoin [user_address_id#27L], [address_id#52L]

== Physical Plan == TungstenProject [address_id#0L]

解决方法:

首先,您执行的查询类型效率极低.至于现在(Spark 1.5.0 *)执行这样的连接,每次执行查询时都必须对两个表进行混洗/散列分区.在用户表中,user_id = 123谓词最有可能被推下但仍需要在user_address上进行完全随机播放时,这应该不是问题.

此外,如果表只是注册而不是缓存,那么每次执行此查询都会将整个user_address表从MySQL获取到Spark.

I’m not sure what I’m doing wrong here and how I can speed things up.

目前尚不清楚为什么要将Spark用于应用程序,但单机设置,小数据和查询类型表明Spark不适合这里.

一般来说,如果应用程序逻辑需要单个记录访问,则Spark SQL将无法正常运行.它专为分析查询而设计,而不是作为OLTP数据库替代品.

如果单个表/数据帧小得多,您可以尝试广播.

import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions.broadcast

val user: DataFrame = ???
val user_address: DataFrame = ???

val userFiltered = user.where(???)

user_addresses.join(
  broadcast(userFiltered), $"address_id" === $"user_address_id")

*这应该在Spark 1.6.0中使用SPARK-11410进行更改,这应该启用持久表分区.

内容总结

以上是互联网集市为您收集整理的mysql – Spark SQL / Hive查询永远加入全部内容，希望文章能够帮你解决mysql – Spark SQL / Hive查询永远加入所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/908079.html

来源：【匿名】

【上一篇】Mysql查询爆炸和计数【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【mysql – Spark SQL / Hive查询永远加入】教程文章相关的互联网学习教程文章

sqoop同步mysql数据到hive中【图】

一、sqoop 在同步mysql表结构到hive sqoop create-hive-table --connect jdbc:mysql://ip:3306/sampledata --table t1--username dev --password 1234 --hive-table t1; 执行到这一步就退出了，但是在hadoop的hdfs上的/hive/warehouse/的目录下是找不到t1表的目录,但是正常执行完成是下面这样的：错误就是hive的jar包有缺失全部的jar包该是这样的：这是hadoop-2.2.0和hbase-0.96.2和hive-0.13.1整合的全部jar包还有就是sqoop-1....

hive 的mysql配置【代码】

hive默认使用的是Derby数据库，Derby是一个嵌入式数据库，数据库一般创建在运行hive命令的目录，如果切换目录运行，则找不到数据库 hive mysql配置：官网地址：https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin hive配置文件目录下创建文件：hive-site.xml，配置如下<configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost/hive?createDatabaseIfNotEx...

Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.【代码】

首先检验Hive元数据是否正常，如果Hive元数据正常使用，请在oozie配置文件workflow.xml中增加配置：<property><name>hive.metastore.uris</name><value>thrift://192.168.2.21:9083</value></property>具体原因需要再排查，可能是由于环境变量导致参考：cdh5版本中的oozie hive action使用及踩坑集锦Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check you...

如何利用sqoop将hive数据导入导出数据到mysql【图】

运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具。上海尚学堂hadoop大数据培训组原创，陆续有hadoop大数据技术相关文章奉上，请多关注！在使用过程中可能遇到的问题：sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz，解...

spark集成hive遭遇mysql check失败的问题【代码】

问题： spark集成hive，启动spark-shell或者spark-sql的时候，报错：INFO MetaStoreDirectSql: MySQL check failed, assuming we are notonmysql: Lexical error atline1, column 5. Encountered: "@" (64), after : "".环境： spark-1.4 hive-1.2.1 mysql-5.1 jdbc驱动原因：查看hive的源码MetaStoreDirectSql的构造方法：publicMetaStoreDirectSql(PersistenceManager pm) {this.pm = pm;Transaction tx = pm.currentTr...

hive 中与mysql 中函数同名不同意的方法记录

max 函数在hive中max函数是一个聚合函数,所以,而且返回值是double ,而且后面必须跟group by ,这个和mysql差异很大Built-in Aggregate Functions (UDAF)DOUBLEmax(col)Returns the maximum value of the column in the group.mysql 中Returns the maximum value of expr. MAX() may take a string argument; insuch cases, it returns the maximum string value. Seehttp://dev.mysql.com/doc/refman/5.1/en/mysql-indexes.html. T...

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

一、引言　Hive元数据存储可以放到RDBMS数据库中，本文以Hive与MySQL数据库的整合为目标，详细说明Hive与MySQL的整合方法。二、安装驱动MySQL最新的Java驱动版本为：mysql-connector-java-5.1.28-bin.jar，下载后拷贝到：Hive/Lib目录。三、安装MySQL　　3.1 版本　　RHEL5+mysql-5.5.35-1.i386.rpm　　3.2 顺序　　　　MySQL-shared-compat-5.5.35-1.rhel15.i386.rpm MySQL-server-5.5.35-1.rhel5.i386.rpm MySQL-clien...

详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出【图】

一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL，但可以先将HBase中的数据导出到HDFS中，再将数据导出到MySQL。三、使用Sqoop将Oracle中的数据导入到HDFS/Hive/HBase 下面只给出将Oracle中的数据导入HBase，其他情况下的命令行选项与MySQL的操作相似 OK！最好的文档尽在：http://sqoop.apach...

安装Hive(独立模式使用mysql连接)【代码】

安装Hive(独立模式使用mysql连接)1.默认安装了java+hadoop 2.下载对应hadoop版本的安装包 3.解压安装包tar zxvf apache-hive-1.2.1-bin.tar.gz 4.安装mysqlyum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要配置yum源mysql常用命令:service mysqld start/stopchkconfig mysqld on //加入开机启动以系统root用户操作 5.授权mysql(以系统hadoop身份数据库root身份进行操作)mysqladmin -u root pa...

hive 与MySQL 的差别

总结 1. Hive数据表分区、分桶的作用分区表产生不同的目录：避免全表扫描分桶表产生不同的文件： jion 速度快和桶抽样2. Hive常用的3复合数据类型及访问方式select * from emp_partitioninner join salariesonsalaries.emp_no is not null andemp_partition.emp_no is not null andemp_partition.emp_no = salaries.emp_no select * from emp_partition --emp_partition 表小放到左侧inner join salariesonsalaries.emp_no is ...

Hive 安装 & Mysql 安装【图】

安装Hive && mysql(1)安装HiveHive安装所需要的依赖（安装Hive前必须先安装jdk、hadoop）　　　　1）jdk1.6以上　　　　2）Hadoop要启动未安装jdk、hadoop可参考文章：https://www.cnblogs.com/wendyw/p/11317021.htmlHive下载、解压　　　　下载路径：http://apache.cs.utah.edu/hive/hive-0.11.0/　　　　将hive-0.11.0.tar.gz解压到/usr/local中　　　　tar -zxvf hive-0.11.0.tar.gz　　　　产生hive的安装目...

sqoop从hive导入数据到mysql时出现主键冲突【代码】

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况，搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令，该死的oozie的日志和异常提示功能太辣鸡了，最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。（1）众所周知hive表是没有主键与索引的，但是mysql的表一般在创建时就会指定主键，所以在把hive表中的数据导入mysql表的时候通常会使用...

对比hive和mysql 复杂逻辑流处理【图】

1.Mysql中可用存储过程和函数来实现复杂逻辑处理，两者的对比如下：存储过程作为可执行文件，编译一次放在数据库中，函数又返回值。可设定使用权限。存储过程中可使用游标，声明变量。用call调用。 2.Hive可用udf（user defined function）来实现复杂逻辑处理编辑Python脚本常用的Python字符串分割处理函数有：split 等等加载udf 调用udf HQL语法可将返回结果重新写入其他表内，此时 as后字段和插入表字段一致。原文：h...

Hive_元数据配置到MySQL【代码】

驱动拷贝1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包[root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/opt/module/hive/lib/[root@hadoop102 mysql-connector-java-5.1.27]# cp mysql-connector-java-5.1.27-bin.jar /opt/module/hive/lib/配置Metas...

hive安装--设置mysql为远端metastore【图】

作业任务：安装Hive，有条件的同学可考虑用mysql作为元数据库安装（有一定难度，可以获得老师极度赞赏），安装完成后做简单SQL操作测试。将安装过程和最后测试成功的界面抓图提交 . 已有的当前虚拟机：总共三台虚拟机，使用CentOS。一台是NameNode，另两台为DataNode，由于搭载虚拟机的内存不是很足，所以不打算再新增一台虚拟机来另外安装mysql，所以选择其中一台datanode虚拟机来安装mysql，由于很早时候已经安装布署了hadoop...

MYSQL - 技术教程分类

MySQL 教程 MySQL 安装 MySQL 管理 MySQL PHP 语法 MySQL 连接 MySQL 创建数据库 MySQL 删除数据库 MySQL 选择数据库 MySQL 数据类型 MySQL 创建数据表 MySQL 删除数据表 MySQL 插入数据 MySQL 查询数据 MySQL WHERE 子句 MySQL UPDATE 更新 MySQL DELETE 语句 MySQL LIKE 子句 MySQL UNION MySQL 排序 MySQL 分组 MySQL 连接的使用 MySQL NULL 值处理 MySQL 事务 MySQL ALTER命令 MySQL 索引 MySQL 临时表 MySQL 复制表 MySQL 元数据 MySQL 序列使用 MySQL 处理重复数据 MySQL 及 SQL 注入 MySQL 导出数据 MySQL 导入数据 MySQL 函数 MySQL 运算符 mysql 全部

MYSQL - 最热教程

sql分组取最大记录方法 mysql如何设置默认值 mysql创建数据表时指定默认值教程 MySQL 5.7 的初始化操作（root初始密码...Oracle中合并数据集(多行变一行)mysql 相同内容的字段合并为一条的方法解决mysql设置时区时的错误Unknown or ...解决ubuntu下mysql的'Access denied fo...ubuntu系统中MysqlERROR1045(28000)报错...mysql数据库设置不区分大小写

首页 / MYSQL / mysql – Spark SQL / Hive查询永远加入

mysql – Spark SQL / Hive查询永远加入

内容导读

内容图文

内容总结

内容备注

内容手机端

【mysql – Spark SQL / Hive查询永远加入】教程文章相关的互联网学习教程文章

sqoop同步mysql数据到hive中【图】

hive 的mysql配置【代码】

Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.【代码】

如何利用sqoop将hive数据导入导出数据到mysql【图】

spark集成hive遭遇mysql check失败的问题【代码】

hive 中与mysql 中函数同名不同意的方法记录

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出【图】

安装Hive(独立模式使用mysql连接)【代码】

hive 与MySQL 的差别

Hive 安装 & Mysql 安装【图】

sqoop从hive导入数据到mysql时出现主键冲突【代码】

对比hive和mysql 复杂逻辑流处理【图】

Hive_元数据配置到MySQL【代码】

hive安装--设置mysql为远端metastore【图】

MYSQL - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程