首页 / MYSQL / spark 读取mysql分区优化

spark 读取mysql分区优化

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了spark 读取mysql分区优化，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2086字，纯文字阅读大概需要3分钟。

内容图文

当数据增加，我们又无法无限制的增加硬件，我们就要利用RDD的partition。将获取一个大表的任务拆分成多个任务，一个一个来执行，每个任务只获取一小部分数据，这样通过多个连接同时去取数据，速度反而更快。

我的配置目前是 master 1 8g,slave 3 8g

Dataset<Row> dataset = spark.read().format("jdbc")
.option("url", JDBCUtil.getJdbcUrl(datasourceModel))
.option("dbtable", tableName)
.option("user", datasourceModel.getUserName())
.option("password", datasourceModel.getPassword())
.option("partitionColumn", "ID")
.option("lowerBound", 10000)
.option("upperBound", 100000000)
.option("numPartitions", 10000)
.load();

参数具体意义：

partitionColumn, lowerBound, upperBound These options must all be specified if any of them is specified. In addition, numPartitions must be specified. They describe how to partition the table when reading in parallel from multiple workers. partitionColumn must be a numeric column from the table in question. Notice that lowerBound and upperBound are just used to decide the partition stride, not for filtering the rows in table. So all rows in the table will be partitioned and returned. This option applies only to reading.

numPartitions The maximum number of partitions that can be used for parallelism in table reading and writing. This also determines the maximum number of concurrent JDBC connections. If the number of partitions to write exceeds this limit, we decrease it to this limit by calling coalesce(numPartitions) before writing.

partitionColumn：根据哪个字段分区，必须是数字类型，int是可以的，一般用id

lowerBound:分区下界，假如是10000，那么10000条数据之前都是在一个任务执行

upperBound:分区上届，lowerBound和upperBound的数据会被拆分，而边界外围的会单独作为分区

numPartitions：分区边界之间的数据要分多少分区。

至于到底分了多少块，边界之外的数据怎么分的块，没必要纠结，只要知道，数据肯定是全部取回来了。

另外只需要部分数据的，可以按照sql的方式：

.option("dbtable", "test_table")

可以改写成：

.option("dbtable", "(select * from test_table where dt >= '2017-05-01') as T")

参考：

http://spark.apache.org/docs/latest/configuration.html

spark读写数据库大表分区性能优化

内容总结

以上是互联网集市为您收集整理的spark 读取mysql分区优化全部内容，希望文章能够帮你解决spark 读取mysql分区优化所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/907369.html

来源：【匿名】

【上一篇】MYSQL数据如何实时备份【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【spark 读取mysql分区优化】教程文章相关的互联网学习教程文章

Mysql分区

Myisam：多个小表一个聚合表，逻辑上的Innodb：物理文件的划分注意事项 Show pluginsShow enginesShow variables like ‘%partition% 分区方式：Range、LIST、HASH、KEY，5.5版本之后支持非整形的Range和List分区；Hash分区不支持字符串 Explain：sql优化常用命令，比如Explain partitions select * from tbl1 where uuid=80Select * from tbl where uuid=8 partition(p1) Select * from information_schema.partions where tabl...

MySQL分区表例子——List分区

列表分区(List分区)这里假设表中有一个sale_item_type 字段，数据类型为INT 型当sale_item_type 为1，3，5的时候，作为一个分区当sale_item_type 为2，4，6的时候，作为另一个分区当sale_item_type 为7，8的时候，作为最后一个分区初期分区定义mysql> CREATE TABLE sale_data2 ( -> sale_date DATETIME NOT NULL, -> sale_item_type INT NOT NULL , -> sale_money DECIMAL(10,2) NOT NULL -> ) -> PART...

mysql分区研究【图】

表分区学习1. 概述1.1. 优点：l 将表分区比一个表在单个磁盘或者文件系统存储能够存储更多数据l 可以通过drop分区删除无用数据，也可以通过增加分区添加数据l 查询可以通过分区裁剪进行优化，设置可以显示指定查找分区l 对于聚合函数的全表查询，可以并行对分区查询，汇总得到结果l 可以对分区指定不同存储磁盘实现更高的查询吞吐量1.2. 分区类型：l 范围分区l 列表分区l 哈希分区l 键值分区1.3. 时间范围分区应用同时支持将date，...

MYSQL定时创建表分区【代码】

MYSQL定时创建表分区一.存储过程-表分区-----------------------------------------------------------------需求：每月创建一个分区分区名名称格式:p201201,p201202……------------------------------------------ 1CREATE DEFINER = `root`@`%` PROCEDURE `Auto_Create_Partition`(IN `databaseName` varchar(50),IN `tableName` varchar(50))2 L_END:BEGIN 3# 初始化变量4DECLARE MAX_PARTITION_DESCRIPTION VARCHAR(255) DE...

MySql分区后创建索引加速单表查询和连表查询【代码】【图】

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/konkon2012/article/details/96482548为了加快查询，我们通常根据Where条件创建索引！那么分区后再创建索引，那就应该更快了！我们依据订单表和订单商品表举例，先创建表结构：CREATE TABLE `zstb_orders` ( `order_id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT, `org_id` INT(10) UNSIGNED NOT NU...

MySQL5.7传输表空间——迁移分区表

Mysql 传输表空间--将InnoDB分区表复制到另一个实例（二）实验环境：（都是mysql5.7）源库：192.168.2.200 mysql5.7.16 zhangdb下的emp_2分区表的目标库：192.168.2.100 mysql5.7.18 test下（将zhangdb的emp表，导入到目标库的test schema下）--：在源数据库中创建测试分区表emp_2，然后导入数据MySQL [zhangdb]> CREATE TABLE emp_2(id BIGINT unsigned NOT NULL AUTO_INCREMENT,x VARCHAR(500) NOT NULL,y ...

mysql分区及实例演示【代码】

一、为什么要分区？需求：大数据。解决方案：分而治之，更细一点即为。将大表和大索引分为一个更小的操作单元在mysql中，分区允许将表、索引和索引编排表细分为更小的单元。分区后，每个分区有自己单独的名称。对于DBA来讲，这些分区可以统一管理，也可以分开管理。但是对于应用程序来讲，分区的表和没有分区的表示一样的。换句话来讲，分区对于应用是透明的，只是数据库对于数据的重新整理。Mysql分区，这个是mysql对于分区的官方...

Mysql 分区介绍(二) —— RANGE分区【代码】

通过范围的方式进行分区, 为每个分区给出一定的范围, 范围必须是连续的并且不能重复, 使用VALUES LESS THAN操作符<br /> 让我们先来创建一个range分区的表CREATE TABLE employees (id INT NOT NULL,fname VARCHAR(30),lname VARCHAR(30),hired DATE NOT NULL DEFAULT ‘1970-01-01‘,separated DATE NOT NULL DEFAULT ‘9999-12-31‘,job_code INT NOT NULL,store_id INT NOT NULL ) PARTITION BY RANGE (store_id) (PARTITION p0 ...

Mysql表分区【代码】

参考地址：http://dev.mysql.com/doc/refman/5.6/en/partitioning.html什么时候使用分区海量数据数据表索引大于服务器有效内存分区的限制大部分只能对数据表的整型列进行分区，或者数据列可以通过分区函数转化成整型列（其中COLUMNS支持 Integer / String / DATE / DATETIME类型）最大分区数目不能超过1024如果含有唯一索引或者主键，则分区列必须包含在所有的唯一索引或者主键内不支持外键不支持全文索引（fulltext）分区支持函数...

MySQL 分区知识点（二）【代码】

前言：　　MySQL 分区类型：　　1、RANGE 分区；　　　　// 这种类型的分区基于落在给定范围内的列值将行分配给分区。　　2、LIST 分区；　　　　// 与 RANGE 分区类似，除了根据匹配一组离散值之一的列来选择分区。　　3、LIST COLUMNS 分区；　　　　// 提供对 LIST COLUMNS 分区的支持。这是一种LIST分区的变体，可以使用多列作为分区键，　　　　也可以使用不同于整数类型的数据类型列作为分区列; 您可以使用字符串类型 DATE和...

Navicat for MySQL进行表分区操作(图解)【代码】【图】

1.建表　　要创建表分区,分区的条件(采用timestamp类型)要被设置为主键(必须),或者整个表都没有主键(可以在分区完毕之后再补上)或者2.切换到分区操作界面3.进行分区操作　　设置普通分区条件　　设置不满足p01、p02条件的分区(类似于if else if else 中最后的else)4.点击确定，最后保存即可5.查看分区　　再次打开后可以看到p01、p02的条件已经变成了整数(其实就是时间戳)6.新增　　如果有"LESS THAN MAXVALUE"的分区,需要先删除此...

mysql分区技术【图】

基本概念把一个表，从逻辑上分成多个区域，便于存储数据。采用分区的前提，数据量非常大。如果数据表的记录非常多，比如达到上亿条，数据表的活性就大大降低，数据表的运行速度就比较慢、效率低下，影响mysql数据库的整体性能，就可以采用分区解决分区是mysql本身就支持的技术分区算法list分区list :条件值为一个数据区。算法：根据“字段的内容值”是否在某个“区域”中进行分区，通过预定义的列表的值来对数据进行分割。语法：利...

mysql分区技术

mysql分区技术在物理存储上使数据表进行分离，逻辑上还是一张表mysql5.1以上版本有5种分区类型RANGE 分区：基于属于一个给定连续区间的列值，把多行分配给分区。LIST 分区：类似于按RANGE分区，区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。HASH分区：基于用户定义的表达式的返回值来进行选择的分区，该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的...

浅析MySQL的分区(Partition)功能

数据库分区是一种物理数据库设计技术。其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减sql语句的响应时间，同时对于应用来说分区完全是透明的。　　分区的作用：数据库性能的提升和简化数据管理。　　在扫描操作中MySQL优化器只扫描数据的那个分区以减少扫描范围获得性能的提高。分区技术使得数据管理变得简单，删除某个分区不会对另外的分区造成影响。MySQL从5.1版本开始支持分区，同个表中的分区表名称要唯一。　　M...

mysql 表分区【代码】

修改表的主键 ALTERTABLE tb_channel_pv DROPPRIMARYKEY,ADDPRIMARYKEY (`id`,`channel`); 测试添加分区和删除分区添加删除range分区#(1)创建一个分区： CREATETABLE titles (emp_no INTNOTNULL,title VARCHAR(50) NOTNULL,from_date DATE NOTNULL,to_date DATE,KEY (emp_no),PRIMARYKEY (emp_no,title, from_date) ) partition by range columns(from_date) (partition p01 values less...

MYSQL - 技术教程分类

MySQL 教程 MySQL 安装 MySQL 管理 MySQL PHP 语法 MySQL 连接 MySQL 创建数据库 MySQL 删除数据库 MySQL 选择数据库 MySQL 数据类型 MySQL 创建数据表 MySQL 删除数据表 MySQL 插入数据 MySQL 查询数据 MySQL WHERE 子句 MySQL UPDATE 更新 MySQL DELETE 语句 MySQL LIKE 子句 MySQL UNION MySQL 排序 MySQL 分组 MySQL 连接的使用 MySQL NULL 值处理 MySQL 事务 MySQL ALTER命令 MySQL 索引 MySQL 临时表 MySQL 复制表 MySQL 元数据 MySQL 序列使用 MySQL 处理重复数据 MySQL 及 SQL 注入 MySQL 导出数据 MySQL 导入数据 MySQL 函数 MySQL 运算符 mysql 全部

MYSQL - 最热教程

sql分组取最大记录方法 mysql如何设置默认值 mysql创建数据表时指定默认值教程 MySQL 5.7 的初始化操作（root初始密码...Oracle中合并数据集(多行变一行)mysql 相同内容的字段合并为一条的方法解决mysql设置时区时的错误Unknown or ...解决ubuntu下mysql的'Access denied fo...ubuntu系统中MysqlERROR1045(28000)报错...mysql数据库设置不区分大小写

首页 / MYSQL / spark 读取mysql分区优化

spark 读取mysql分区优化

内容导读

内容图文

内容总结

内容备注

内容手机端

【spark 读取mysql分区优化】教程文章相关的互联网学习教程文章

Mysql分区

MySQL分区表例子——List分区

mysql分区研究【图】

MYSQL定时创建表分区【代码】

MySql分区后创建索引加速单表查询和连表查询【代码】【图】

MySQL5.7传输表空间——迁移分区表

mysql分区及实例演示【代码】

Mysql 分区介绍(二) —— RANGE分区【代码】

Mysql表分区【代码】

MySQL 分区知识点（二）【代码】

Navicat for MySQL进行表分区操作(图解)【代码】【图】

mysql分区技术【图】

mysql分区技术

浅析MySQL的分区(Partition)功能

mysql 表分区【代码】

MYSQL - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程