首页 / 更多教程 / spark记录（2）spark广播变量与累加器

spark记录（2）spark广播变量与累加器

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了spark记录（2）spark广播变量与累加器，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1454字，纯文字阅读大概需要3分钟。

内容图文

转自：https://www.cnblogs.com/qingyunzong/p/8890483.html

一、概述

在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变（broadcast variable）和累加器（accumulator）

二、广播变量broadcast variable

2.1　为什么要将变量定义成广播变量？

如果我们要在分布式计算里面分发大对象，例如：字典，集合，黑白名单等，这个都会由Driver端进行分发，一般来讲，如果这个变量不是广播变量，那么每个task就会分发一份，这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈，而且会大量消耗task服务器上的资源，如果将这个变量声明为广播变量，那么知识每个executor拥有一份，这个executor启动的task会共享这个变量，节省了通信的成本和服务器的资源。

2.2　广播变量图解

错误的，不使用广播变量

技术分享图片

正确的，使用广播变量的情况

技术分享图片

2.3　如何定义一个广播变量？

val a = 3
val broadcast = sc.broadcast(a)

2.4　如何还原一个广播变量？

val c = broadcast.value

2.5　定义广播变量需要的注意点？

变量一旦被定义为一个广播变量，那么这个变量只能读，不能修改

2.6　注意事项

1、能不能将一个RDD使用广播变量广播出去？

不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。

2、广播变量只能在Driver端定义，不能在Executor端定义。

3、在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。

4、如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。

5、如果Executor端用到了Driver的变量，如果使用广播变量在每个Executor中只有一份Driver端的变量副本。

三、累加器

3.1　为什么要将一个变量定义为一个累加器？

在spark应用程序中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会再driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本，并不能改变原始变量的值，但是当这个变量被声明为累加器后，该变量就会有分布式计数的功能。

3.2　图解累加器

错误的图解

技术分享图片

正确的图解

技术分享图片

3.3　如何定义一个累加器？

val a = sc.accumulator(0)

3.4　如何还原一个累加器？

val b = a.value

3.5　注意事项

1、累加器在Driver端定义赋初始值，累加器只能在Driver端读取最后的值，在Excutor端更新。

2、累加器不是一个调优的操作，因为如果不这样做，结果是错的

原文：https://www.cnblogs.com/kpsmile/p/10426835.html

内容总结

以上是互联网集市为您收集整理的spark记录（2）spark广播变量与累加器全部内容，希望文章能够帮你解决spark记录（2）spark广播变量与累加器所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1213581.html

来源：【匿名】

【上一篇】程序清单3.10_escape.c程序_《C Primer plus》P55 【下一篇】关于IE的RegExp.exec的问题

更多 ►

【spark记录（2）spark广播变量与累加器】教程文章相关的互联网学习教程文章

计算结构体中成员变量的偏移【代码】

被人问到这个问题，各种解决。google一下，MFC中有一个OFFSET宏，就有这个功能。写一下：#define offsetof(structure, member) ((int)(&((structure *)0)->member)) eg:#include <iostream> using namespace std; #include <stdio.h> #define offsetof(structure, member) ((int)(&((structure *)0)->member))struct test_struct {int a;char b;int aa[10];char bb[2]; };int main() {cout<<offsetof(struct test_struct, a)<<end...

spark记录（2）spark广播变量与累加器【代码】【图】

转自：https://www.cnblogs.com/qingyunzong/p/8890483.html一、概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变（broadcast varia...

类变量，成员变量，局部【代码】

1 public class JingTai { 2 public static int a; //类变量（静态变量）随着类的加载而出现，随着类的消失而消失 3 public int b; //成员变量，随着对象的创建而创建，随着对象的回收而释放 4 public void s() 5 { 6 int a; //局部变量 7 } 8 9 }成员变量和局部变量的区别成员变量： 1、成员变量定义在类中，在整个类中都可以被访问。 2、成员变量随着...

smarty变量调节器

Capitatize 首字母大写用法：<{$a|Capitatize}> Cat 连接字符串用法：<{$money|cat:”$”}> Count_characters 统计字符串的字数 Date_format 格式化日期用法：<{$riqi|date_format:”%Y-%m-%d %H:%M:%S”}> Default 默认值用法：<{$moren|default:”hello”}> 如果赋值使用赋的值如果没有赋值使用Hello Indent 缩进用法：<{$moren|indent}> Lower 转小写用法：<{$a|lower}> Regex_replace 正则替换 <{$moren|Rege...

结构体（或者联合体）变量的成员在内存里是如何分布的（转）

1、概述结构体变量的成员在内存里是如何分布的、成员先后顺序始怎样的、成员之间是连续的还是分散的、还是其他的什么形式？这些问题既和软件相关又和硬件相关。所谓软件相关主要是指和具体的编程语言的编译器的特性相关，编译器为了优化CPU访问内存的效率，在生成结构体成员的起始地址时遵循着某种特定的规则，这就是所谓的“结构体成员对齐”；所谓硬件相关主要是指CPU的“字节序”问题，也就是大于一个字节类型的数据，如int类型...

变量、字符编码、数据类型、缩进

变量: 　　变量是为了存储程序运算过程中的一些中间结果，为了方便后续调用。变量命名规则：　　1. 要具有描述性　　2. 变量名只能_,数字，字母组成，不可以是空格或特殊字符(#?<.，￥$*!~) 　　3. 不能以中文为变量名　　4. 不能以数字开头　　5. 不能被使用关键字　　6.变量的推荐写法：驼峰体（serverNamePython)、下划线(官方推荐)常量：　　在python里所有的变量都是可变的 ,用全部大写的变量名来代表此变量为常量变量赋...

shell script 判断变量是否在列表中【代码】

1. 背景最近在跟一个AI的项目，代码量很少，于是写了个脚本，想用scp直接复制到生产，但是有一些文件需要排除掉。2. 双中括号关键字双中括号[[]]是bash shell中的关键词，相对于[]有以下特点和优势：[[ ]] 结构比[ ]结构更加通用。在[[和]]之间所有的字符都不会发生文件名扩展或者单词分割，但是会发生参数扩展和命令替换。支持字符串的模式匹配，使用=~操作符时甚至支持shell的正则表达式。字符串比较时可以把右边的作为一个模式，...

JDK环境变量配置

java设置classpath,path,java_home环境变量Windows7安装JDK的环境变量设置Windows7 X64安装“jdk-6u26-windows-x64.exe”后，按照网上的环境变量设置方法设置了环境变量，但是死活都提示“javac不是内部命令或外部命令，也不是可运行的程序或批处理文件”。折腾了半天，还是这个问题。后上网查了半天，终于找到解决办法，并且亲测可用，现在整理如下，希望对童鞋门有用。第一步：安装jdk-6u26-windows-x64.exe，路径为默认路径，一...

数据与变量

程序大概是怎么回事计算机就是个机器，这个机器主要由CPU、内存、硬盘和输入输出设备组成。计算机上跑着操作系统，如Windows或Linux，操作系统上运行着各种应用程序，如Word, QQ等。操作系统将时间分成很多细小的时间片，一个时间片给一个程序用，另一个时间片给另一个程序用，并频繁地在程序间切换。不过，在应用程序看来，整个机器资源好像都归他使，操作系统给他提供了这种假象。对程序员而言，我们写程序，基本不用考虑其他...

shell基础之变量及表达式

本节内容1. shell变量简介2. 定义变量3. 使用变量4. 修改变量的值5. 单引号和双引号的区别6. 将命令的结果赋值给变量7. 删除变量8. 变量类型9. 特殊变量列表10. 退出状态11. shell表达式与运算符 11.1 条件表达式 11.2 整数比较符 11.3 字符串比较符 11.4 文件测试 11.5 布尔运算符 11.6 逻辑判断符 11.7 整数运算 11.8 其他运算工具 11.9 shell括号用途总结一、shell变量简介变量是任何一种编程语言都必不可少的...

YUM变量缺失导致的问题小记【图】

田振 360云计算女主宣言：做为运维工程师最基本的素质就是应该沉着冷静，遇事不能慌。没啥解决不了的问题嘛！然而冰冻三尺非一日之寒，经验要靠平时不断的积累，HULK团队当然积累了不少的一线经验。今天就先为大家分享一个日常运维当中使用Yum命令遇到的小问题，后期将会陆续为大家分享一些实用的运维经验干货，敬请期待。PS：丰富的一线技术、多元化的表现形式，尽在“HULK一线技术杂谈”，点关注哦！问题现象有一次在用yum安装软...

单变量微分、导数与链式法则【图】

映射是一种对应关系。函数是一种映射，将变量间的关系形式化为数学描述。令$y = f(x)$，即$y$是$x$的函数，可以是$y = 2x + 1$，也可以是$y = sin(x)$。$x$的变化将引起$y$的变化，$x$的变化量$\triangle x$导致$y$变化$\triangle y$，当变化量很小（趋近于0）时，为瞬间变化量，记为$dx$和$dy$，瞬间变化量之比为瞬间变化率，即$\frac{dy}{dx}$。瞬间变化率$\frac{dy}{dx}$乘以$x$的瞬间变化量\(...

变量 - 相关标签

变量的定义变量定义变量类型变量名变量命名规则变量提升

首页 / 更多教程 / spark记录（2）spark广播变量与累加器

spark记录（2）spark广播变量与累加器

内容导读

内容图文

一、概述

二、广播变量broadcast variable

2.1　为什么要将变量定义成广播变量？

2.2　广播变量图解

2.3　如何定义一个广播变量？

2.4　如何还原一个广播变量？

2.5　定义广播变量需要的注意点？

2.6　注意事项

三、累加器

3.1　为什么要将一个变量定义为一个累加器？

3.2　图解累加器

3.3　如何定义一个累加器？

3.4　如何还原一个累加器？

3.5　注意事项

内容总结

内容备注

内容手机端

【spark记录（2）spark广播变量与累加器】教程文章相关的互联网学习教程文章

计算结构体中成员变量的偏移【代码】

spark记录（2）spark广播变量与累加器【代码】【图】

类变量，成员变量，局部【代码】

smarty变量调节器

结构体（或者联合体）变量的成员在内存里是如何分布的（转）

变量、字符编码、数据类型、缩进

shell script 判断变量是否在列表中【代码】

JDK环境变量配置

数据与变量

shell基础之变量及表达式

YUM变量缺失导致的问题小记【图】

单变量微分、导数与链式法则【图】

JS的变量与函数

Shell变量概述【代码】

grafana的Variables网络设备zabbix变量模版【图】

变量 - 相关标签

更多教程 - 最新教程

更多教程 - 最热教程

首页 / 更多教程 / spark记录（2）spark广播变量与累加器

spark记录（2）spark广播变量与累加器

内容导读

内容图文

一、概述

二、广播变量broadcast variable

2.1 为什么要将变量定义成广播变量？

2.2 广播变量图解

2.3 如何定义一个广播变量？

2.4 如何还原一个广播变量？

2.5 定义广播变量需要的注意点？

2.6 注意事项

三、累加器

3.1 为什么要将一个变量定义为一个累加器？

3.2 图解累加器

3.3 如何定义一个累加器？

3.4 如何还原一个累加器？

3.5 注意事项

内容总结

内容备注

内容手机端

【spark记录（2）spark广播变量与累加器】教程文章相关的互联网学习教程文章

变量 - 相关标签

更多教程 - 最新教程

更多教程 - 最热教程

2.1　为什么要将变量定义成广播变量？

2.2　广播变量图解

2.3　如何定义一个广播变量？

2.4　如何还原一个广播变量？

2.5　定义广播变量需要的注意点？

2.6　注意事项

3.1　为什么要将一个变量定义为一个累加器？

3.2　图解累加器

3.3　如何定义一个累加器？

3.4　如何还原一个累加器？

3.5　注意事项