首页 / 更多教程 / Spark SQL用UDF实现按列特征重分区

Spark SQL用UDF实现按列特征重分区

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Spark SQL用UDF实现按列特征重分区，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3186字，纯文字阅读大概需要5分钟。

内容图文

Spark SQL用UDF实现按列特征重分区

浪尖浪尖聊大数据
欢迎关注，浪尖公众号，bigdatatip，建议置顶。

这两天，球友又问了我一个比较有意思的问题:

Spark SQL用UDF实现按列特征重分区 - 文章图片

解决问题之前，要先了解一下Spark 原理，要想进行相同数据归类到相同分区，肯定要有产生shuffle步骤。

Spark SQL用UDF实现按列特征重分区 - 文章图片

比如，F到G这个shuffle过程，那么如何决定数据到哪个分区去的呢？这就有一个分区器的概念，默认是hash分区器。

假如，我们能在分区这个地方着手的话肯定能实现我们的目标。

那么，在没有看Spark Dataset的接口之前，浪尖也不知道Spark Dataset有没有给我门提供这种类型的API，抱着试一试的心态，可以去Dataset类看一下，这个时候会发现有一个函数叫做repartition。


/**
  * Returns a new Dataset partitioned by the given partitioning expressions, using
  * `spark.sql.shuffle.partitions` as number of partitions.
  * The resulting Dataset is hash partitioned.
  *
  * This is the same operation as "DISTRIBUTE BY" in SQL (Hive QL).
  *
  * @group typedrel
  * @since 2.0.0
  */
 @scala.annotation.varargs
 def repartition(partitionExprs: Column*): Dataset[T] = {
   repartition(sparkSession.sessionState.conf.numShufflePartitions, partitionExprs: _*)
 }

可以传入列表达式来进行重新分区，产生的新的Dataset的分区数是由参数spark.sql.shuffle.partitions决定，那么是不是可以满足我们的需求呢？

明显，直接用是不行的，可以间接使用UDF来实现该功能。

方式一-简单重分区

首先，实现一个UDF截取列值共同前缀，当然根据业务需求来写该udf


val substring = udf{(str: String) => {
     str.substring(0,str.length-1)
   }}

注册UDF


spark.udf.register("substring",substring)

创建Dataset


val sales = spark.createDataFrame(Seq(
     ("Warsaw1", 2016, 100),
     ("Warsaw2", 2017, 200),
     ("Warsaw3", 2016, 100),
     ("Warsaw4", 2017, 200),
     ("Beijing1", 2017, 200),
     ("Beijing2", 2017, 200),
     ("Warsaw4", 2017, 200),
     ("Boston1", 2015, 50),
     ("Boston2", 2016, 150)
   )).toDF("city", "year", "amount")

执行充分去操作


val res = sales.repartition(substring(col("city")))

打印分区ID及对应的输出结果


res.foreachPartition(partition=>{
     println("---------------------> Partition start ")
     println("partitionID is "+TaskContext.getPartitionId())
     partition.foreach(println)
     println("=====================> Partition stop ")
   })

浪尖这里spark.sql.shuffle.partitions设置的数值为10.
输出结果截图如下：

Spark SQL用UDF实现按列特征重分区 - 文章图片

方式二-SQL实现

对于Dataset的repartition产生的shuffle是不需要进行聚合就可以产生shuffle使得按照字段值进行归类到某些分区。

SQL的实现要实现重分区要使用group by，然后udf跟上面一样，需要进行聚合操作。

完整代码如下：


val sales = spark.createDataFrame(Seq(
     ("Warsaw1", 2016, 100),
     ("Warsaw2", 2017, 200),
     ("Warsaw3", 2016, 100),
     ("Warsaw4", 2017, 200),
     ("Beijing1", 2017, 200),
     ("Beijing2", 2017, 200),
     ("Warsaw4", 2017, 200),
     ("Boston1", 2015, 50),
     ("Boston2", 2016, 150)
   )).toDF("city", "year", "amount")

   sales.registerTempTable("temp");
   val substring = udf{(str: String) => {
     str.substring(0,str.length-1)
   }}
   spark.udf.register("substring",substring)

   val res = spark.sql("select sum(amount) from temp group by substring(city)")
//
   res.foreachPartition(partition=>{
     println("---------------------> Partition start ")
     println("partitionID is "+TaskContext.getPartitionId())
     partition.foreach(println)
     println("=====================> Partition stop ")
   })

输出结果如下：

Spark SQL用UDF实现按列特征重分区 - 文章图片

由上面的结果也可以看到task执行结束时间是无序的。

浪尖在这里主要是讲了Spark SQL 如何实现按照自己的需求对某列重分区。

那么，浪尖在这里就顺带问一下，如何用Spark Core实现该功能呢？

内容总结

以上是互联网集市为您收集整理的Spark SQL用UDF实现按列特征重分区全部内容，希望文章能够帮你解决Spark SQL用UDF实现按列特征重分区所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/861510.html

来源：【匿名】

【上一篇】基于PG数据库插件的SQL规范审核工具【下一篇】关于IE的RegExp.exec的问题

更多 ►

【Spark SQL用UDF实现按列特征重分区】教程文章相关的互联网学习教程文章

Spark SQL用UDF实现按列特征重分区【代码】【图】

Spark SQL用UDF实现按列特征重分区浪尖浪尖聊大数据欢迎关注，浪尖公众号，bigdatatip，建议置顶。这两天，球友又问了我一个比较有意思的问题:解决问题之前，要先了解一下Spark 原理，要想进行相同数据归类到相同分区，肯定要有产生shuffle步骤。比如，F到G这个shuffle过程，那么如何决定数据到哪个分区去的呢？这就有一个分区器的概念，默认是hash分区器。假如，我们能在分区这个地方着手的话肯定能实现我们的目标。那么，...

win7100m分区作用详情【图】

使用win7的小伙伴许多都知道磁盘分区这个功能，但是绝大多数人还是不明白这个分区的作用是什么，没关系下面就给你们带来了详细的介绍一起看看吧。win7100m分区作用是什么：答：可以很多好的阻止意外删除引导文件也能增加其他磁盘的空间。bitlocker规定，引导文件和windows文件要分开。1、意义：系统分区可以使用实用软件，如备份支持双启动的情况。如果启动文件保存在了系统的分区，很容易因为重装等活动而不小心格式化这些启动文...

处理Zabbix历史数据库办法二------------使用zabbix表分区

http://john88wang.blog.51cto.com/2165294/1770582 在前面介绍可以通过创建新表然后导入一个月内的数据到新表，最后删除旧表的方法来处理历史数据。但是这种方式非常耗费时间，至少是几个小时，同时也不必须停掉zabbix server防止新的数据写入。对于需要全天不停地处理监控的应用来说，这种方法还是不可取的。本文出自 “Linux SA John” 博客，请务必保留此出处http://john88wang.blog.51cto.com/2165294/1771557处理Zabbix历史...

Hive SQL之分区表与分桶表【代码】【图】

Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言，但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近，但是两者之间也存在着显著的差异，比如Hive不支持行级数据的插入、更新和删除，也不支持事务操作。注: HIVE 2.*版本之后开始支持事务功能，以及对单条数据的插入更新等操作 Hive的相关概念Hive数据库Hive中的数据库从本质上来说仅仅就是一个目录或者命名空间，但是对于具有很多用户和组的...

第10课--10_05_脚本编程之八脚本完成磁盘分区格式化

一、until 循环where CONDTION;dostatementdone进入循环，条件满足退出循环，条件不满足until CONDTION;dostatementdone进入循环，条件不满足退出循环，条件满足for i in list ;dostatementdonefor ((expr1;epxr2,expr3));dolistdonefor((i=1;i<100;i++));dolistdone二、18

硬盘分区，挂载，扩建虚拟内存

1、为主机新增两块30GB的SCSI硬盘 2、划分3个主分区，各5GB，剩余空间作为扩展分区[root@localhost ~]# fdisk /dev/sdb命令(输入 m 获取帮助)：n Select (default p): pLast 扇区, +扇区 or +size{K,M,G} (2048-209715199，默认为 209715199)：+5G分区 1 已设置为 Linux 类型，大小设为 5 GiB 同上同上命令(输入 m 获取帮助)：nSelect (default e): e然后回车三次3、在扩展分区中建立2个逻辑分区，容量分别为2GB、10GB命令(输入...

deepin调整分区大小方法【图】

很多用户使用deepin系统也会需要对自己的分区进行设置但是却不知道该怎么去调整，今天就给你们带来了deepin调整分区大小方法，还不知道的就来学习一下吧。deepin如何调整分区大小：1、点击桌面任务栏中的“启动器”。2、找到里面的分区编辑器并打开。3、输入管理员密码随后进入分区编辑器。4、如果对原有存在的分区进行修改的话直接选中分区右击打开“编辑菜单”即可更改。5、如果是建立的新分区就选择未分配的盘区，右击选择“新建...

hive表按天动态分区报错【代码】【图】

原本要将ods层的newlogs表中365天的数据全部导入到dwd层的logs表，并按天分区，但是报错了，具体情况如下执行sql前，开启动态分区并设置参数 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=3000; set hive.exec.max.dynamic.partitions=6000; set mapreduce.map.memory.mb=2048; set mapreduce.reduce.memory.mb=3072;以下是hql语句 ins...

SQL分区表示例

-- Create tablecreate table TT_FVP_OCR_ADDRESS( id NUMBER not null, waybill_no VARCHAR2(32) not null, dest_zone_code VARCHAR2(32), confidence NUMBER(16,4), input_tm DATE, insert_tm DATE default sysdate not null, deal_flg NUMBER(2) default 0 not null, deal_count NUMBER(2) default 0 not null, deal_ip VARCHAR2(30), deal_tm DATE, ocr_ad...

达梦数据库间隔分区应用(interval)

达梦数据库间隔分区应用(interval) oracle11g中引入了间隔分区的功能，通过该功能，可以在输入相应分区的数据时自动创建相应的分区。在达梦中我们也可以使用间隔分区，不过需要注意的是达梦中的间隔分区使用有以下限制：1.仅支持一级范围分区创建间隔分区;2.只能有一个分区列，且分区列类型为日期或数值;3.对间隔分区进行SPLIT，只能在间隔范围内进行操作;4.被SPLIT/MERGE的分区，其左侧分区不再进行自动创建;5.不相邻的间隔的分区...

必读|spark的重分区及排序【代码】

必读|spark的重分区及排序浪尖浪尖聊大数据前几天，有人在星球里，问了一个有趣的算子，也即是RepartitionAndSortWithinPartitions。当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。昨天说了，mapPartitions 的使用技巧。大家应该都知道mapPartitions值针对整个分区执行map操作。而且对于PairRDD的分区默认是基于hdfs的物理块，当然不可分割的话就是hdfs的文件个数。但是我们也可以给part...

mount挂载导致根分区不可用【图】

今天在做cobbler一键装机的时候出现下面“no space left on device ”,一看肯定是磁盘满了650) this.width=650;" src="/upload/getfiles/default/2022/11/4/20221104012541814.jpg" title="12.jpg" /> 于是使用df -h 命令查看了下，结果果然根分区满了。于是脑子里面想的就是给他加块儿磁盘，然后挂载上。 650) this.width=650;" src="/upload/getfiles/default/2022/11/4/20221104012542043.jpg" title="1.png" />关机，重...

首页 / 更多教程 / Spark SQL用UDF实现按列特征重分区

Spark SQL用UDF实现按列特征重分区

内容导读

内容图文

Spark SQL用UDF实现按列特征重分区

方式二-SQL实现

内容总结

内容备注

内容手机端

【Spark SQL用UDF实现按列特征重分区】教程文章相关的互联网学习教程文章

Spark SQL用UDF实现按列特征重分区【代码】【图】

win7100m分区作用详情【图】

处理Zabbix历史数据库办法二------------使用zabbix表分区

Hive SQL之分区表与分桶表【代码】【图】

第10课--10_05_脚本编程之八脚本完成磁盘分区格式化

硬盘分区，挂载，扩建虚拟内存

deepin调整分区大小方法【图】

hive表按天动态分区报错【代码】【图】

SQL分区表示例

达梦数据库间隔分区应用(interval)

必读|spark的重分区及排序【代码】

mount挂载导致根分区不可用【图】

deepinefi分区多大合适详情【图】

win7100m分区合并方法【图】

整数分区硬盘计算硬盘整数分区最精确的方法【图】

更多教程 - 最新教程

更多教程 - 最热教程