首页 / 更多教程 / 【总结】Spark应用程序的资源分配

【总结】Spark应用程序的资源分配

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【总结】Spark应用程序的资源分配，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2954字，纯文字阅读大概需要5分钟。

内容图文

执行Spark任务，资源分配是很重要的一方面。如果配置不准确，Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。

怎么去配置Spark任务的executors，cores，memory，有如下几个因素需要考虑：

数据量
任务完成时间点
静态或者动态的资源分配
上下游应用

Spark应用当中术语的基本定义：

Partitions : 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据，这些分区有助于并行化数据处理，并且使executor之间的数据交换最小化
Task：任务是一个工作单元，可以在分布式数据集的分区上运行，并在单个Excutor上执行。并行执行的单位是任务级别。单个Stage中的Tasks可以并行执行
Executor：在一个worker节点上为应用程序创建的JVM，Executor将巡行task的数据保存在内存或者磁盘中。每个应用都有自己的一些executors，单个节点可以运行多个Executor，并且一个应用可以跨多节点。Executor始终伴随Spark应用执行过程，并且以多线程方式运行任务。spark应用的executor个数可以通过SparkConf或者命令行 –num-executor进行配置
Cores：CPU最基本的计算单元，一个CPU可以有一个或者多个core执行task任务，更多的core带来更高的计算效率，Spark中，cores决定了一个executor中并行task的个数
Cluster Manager：cluster manager负责从集群中请求资源

cluster模式执行的Spark任务包含了如下步骤：

driver端，SparkContext连接cluster manager（Standalone/Mesos/Yarn）
Cluster Manager在其他应用之间定位资源，只要executor执行并且能够相互通信，可以使用任何Cluster Manager
Spark获取集群中节点的Executor，每个应用都能够有自己的executor处理进程
发送应用程序代码到executor中
SparkContext将Tasks发送到executors

以上步骤可以清晰看到executors个数和内存设置在spark中的重要作用。

以下将尝试理解优化spark任务的最佳方式：

静态分配：配置值从spark-submit中体现
动态分配：从数据量和计算需求上衡量资源需求，并在使用后释放掉，这样可以让其他应用重复利用资源

静态分配

以下按不同例子讨论验证不同参数和配置组合

例子1
硬件资源： 6 节点，每个节点16 cores, 64 GB 内存
每个节点在计算资源时候，给操作系统和Hadoop的进程预留1core，1GB，所以每个节点剩下15个core和63GB
内存。
core的个数，决定一个executor能够并发任务的个数。所以通常认为，一个executor越多的并发任务能够得到更好的性能，但有研究显示一个应用并发任务超过5，导致更差的性能。所以core的个数暂设置为5个。
5个core是表明executor并发任务的能力，并不是说一个系统有多少个core，即使我们一个CPU有32个core，也设置5个core不变。
executor个数，接下来，一个executor分配 5 core,一个node有15 core，从而我们计算一个node上会有3 executor（15 / 5），然后通过每个node的executor个数得到整个任务可以分配的executors个数。
我们有6个节点，每个节点3个executor，6 3 = 18个executors，额外预留1个executor给AM，最终要配置17个executors。
最后spark-submit启动脚本中配置 –num-executors = 17
memory，配置每个executor的内存，一个node，3 executor， 63G内存可用，所以每个executor可配置内存为63 / 3 = 21G
从Spark的内存模型角度，Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead，预留出MemoryOverhead的内存量之后，才是ExecutorMemory的内存。
MemoryOverhead的计算公式： max(384M, 0.07 spark.executor.memory)

因此 MemoryOverhead值为0.07 * 21G = 1.47G > 384M

最终executor的内存配置值为 21G – 1.47 = 19 GB

至此， Cores 5, Executors 17, Executor Memory 19 GB

内容总结

以上是互联网集市为您收集整理的【总结】Spark应用程序的资源分配全部内容，希望文章能够帮你解决【总结】Spark应用程序的资源分配所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/836193.html

来源：【匿名】

【上一篇】Struts2源码解析2 【下一篇】关于IE的RegExp.exec的问题

更多 ►

【【总结】Spark应用程序的资源分配】教程文章相关的互联网学习教程文章

应用程序无法正常启动0xc0000142【图】

最近有很多游戏玩家在运行某些游戏的时候会弹出“应用程序无法正常启动(0xc0000142)，请点击确定关闭应用程序”的错误提示，如文明、尘埃、看门狗等游戏，出现此错误很有可能是缺少组件导致，今天小编带来了详细的解决方法。具体的一起来看看吧。应用程序无法正常启动0xc0000142解决方法1、右下角win健，右键点击出现弹窗，之后找到设置进入2、在设置里面，找到语言这个选项，点击进入3、时间和日期右下角找到其他设置，之后找到“...

Type类实例在不同应用程序域有不同副本【图】

原文链接：http://www.cnblogs.com/zhy2002/archive/2008/07/17/1245160.html今天看CLR via C#，看到上面说，同一个类型会在不同应用程序域中存在多个映像，于是写了一段代码证明一下这个情况。using?System;using?System.Collections.Generic;using?System.Linq;using?System.Text;using?System.Reflection;namespace?RemotingTest{????class?Program????{????????static?void?Main(string[]?args)????????{????????????AppDomain...

独立应用程序中的Spring安全性【代码】

如何在独立应用程序中使用Spring Security.我只需要使用Spring Security的Authentication部分.我需要针对Windows Active Directory对用户进行身份验证. Web中有很多用于在Servlet中使用spring安全性的例子,但在独立应用程序中使用它们却找不到多少. 我只是想找点东西来完成这个方法boolean isValidCredentials(String username, String password) {//TODO use spring security for authentication here.. }解决方法:如果您只需要进...

性能分析（2）- 应用程序 CPU 使用率过高案例【代码】【图】

性能分析小案例系列，可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 系统架构背景其中一台用作 Web 服务器，来模拟性能问题另一台用作 Web 服务器的客户端，来给 Web 服务增加压力请求使用两台虚拟机（均是 Ubuntu 18.04）是为了相互隔离，避免交叉感染 VM2 运行 ab 命令，初步观察 Nginx 性能简单介绍 ab 命令ab（apache bench）是一个常用的 HTTP 服务性能测试工具可以向目标服务器并发发...

c – 如何让Qt应用程序更小

我是qt的新手.我做了一个非常简单的qt程序,因为我没有商业许可证,我使用了依赖walker并将我的qtsdk文件夹中的所有.dll添加到我的release文件夹中.它工作得很好.但是当我检查它的大小时它非常大.我的问题是如何让它变小.还解释了静态库和动态库之间的区别以及它如何影响应用程序的大小.有多少种方法有没有购买商业许可证使qt应用程序更小.任何帮助表示赞赏.解决方法:通常,没有什么可以做的,以显着减少应用程序及其依赖项的大小.有些...

056*：应用程序的生命周期【代码】【图】

一：iOS应用程序生命周期(前后台切换,应用的各种状态)详解 iOS的应用程序的生命周期，还有程序是运行在前台还是后台，应用程序各个状态的变换，这些对于开发者来说都是很重要的。 iOS系统的资源是有限的，应用程序在前台和在后台的状态是不一样的。在后台时，程序会受到系统的很多限制，这样可以提高电池的使用和用户体验。开发app,我们要遵循apple公司的一些指导原则，原则如下： 1、应用程序的状态 1：状态如下： Not running ...

我如何从另一个应用程序中的窗口上的控件读取数据？

我必须编写一个观察另一个应用程序并从窗口中提取信息的应用程序.从其他应用程序访问窗口并从其控件获取数据的最佳方法是什么？解决方法:您需要P /调用FindWindow和FindWindowEx函数来检索另一个应用程序的父窗口和子控件的句柄. 然后,您将需要使用诸如GetWindowText之类的内容来访问特定控件的文本. 访问pinvoke.net,获取需要从C#调用这些函数的定义. 请注意,这不是一个完全简单的追求.您应该停止考虑是否确实有这样做的充分理由,...

【总结】Spark应用程序的资源分配

执行Spark任务，资源分配是很重要的一方面。如果配置不准确，Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors，cores，memory，有如下几个因素需要考虑：数据量任务完成时间点静态或者动态的资源分配上下游应用Spark应用当中术语的基本定义：Partitions : 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据，这些分区有助于并行化数据处理，并且使executor之间的数据交换...

XMan 冬令营哈尔滨 day1移动应用程序渗透测试【图】

参加了华为XMan冬令营，身边大佬云集，菜鸡我瑟瑟发抖，今日学习记录如下 01 安卓系统架构与机制应用层：系统内置的应用程序以及非系统级的应用程序都属于应用层，负责与用户进行直接交互，通常都是用Java 进行开发的应用框架层：应用框架层为开发人员提供了开发应用程序所需要的API，我们平常开发应用程序都是调用这一层所提供的API，当然也包括系统应用。这一层是由Java 代码编写的，可以称为Java Framework。 ...

如何更快地对复杂的应用程序进行故障排除？【图】

随着云和微服务时代的到来，应用程序架构变得日益复杂，监视它们的性能对于保护您的业务稳定运行至关重要。为了快速解决性能问题并减少平均检测时间（MTTD）和平均解决时间（MTTR），使用应用程序性能监视（APM）工具非常有用。 APM工具可帮助您确定问题的根本原因，并使您能够在问题出现之前主动识别问题。通过持续监视您的应用程序，当问题意外发生时，您可以快速回滚进行补救。在本文中，我们将讨论常见的应用程序性能问题，以...

发Matlab客户端 - 服务器应用程序，其中客户端应用程序与服务器端应用程序建立TCP / IP连接以发送压缩的灰度图像。客户端应用程序应在读取映像源文件之后并在将其发送到服务器端应用程序之前【图】

开发Matlab客户端 - 服务器应用程序，其中客户端应用程序与服务器端应用程序建立TCP / IP连接以发送压缩的灰度图像。客户端应用程序应在读取映像源文件之后并在将其发送到服务器端应用程序之前，对映像的每个88块（B）应用以下压缩步骤：（a）将B变换为BF的离散余弦变换（DCT）（b）输出量化块BQF的量化，其中：BQF（i，j）= BF（i，j）Q（i，j）其中1≤ i，j≤8?量化矩阵（Q）由左上角的LL块组成，其余元素设置为零。以下矩阵显示...

Qt 应用程序信息

添加info.rc文件内容如下在.pro项目文件中，添加 RC_FILES += info.rcIDI_ICON1 ICON DISCARDABLE"ico.ico" #if defined(UNDER_CE) #include <winbase.h> #else #include <winver.h> #endif VS_VERSION_INFO VERSIONINFOFILEVERSION 2,0,9FILEFLAGSMASK 0x3fL #ifdef _DEBUGFILEFLAGS VS_FF_DEBUG #elseFILEFLAGS 0x0L #endifFILEOS VOS__WINDOWS32FILETYPE VFT_DLLFILESUBTYPE 0x0LBEGINBLOCK "StringFileInfo"BEGINBLOCK "080...

WCF开发服务端应用程序【代码】【图】

https://www.cnblogs.com/jiangxianshen/p/7568379.html 一、WCF基本介绍: 1.WCF是什么？ WCF(Windows Communication Foundation)它是数据通信的应用程序框架，是一款以Windows通信为基础的应用平台。 2.WCF有什么好处？ WCF优点概括：统一性、互操作性、安全可信赖、兼容性。 WCF可以解决服务与服务之间的通信问题。 WCF可以分布式提供计算可管理的方法，并为服务提供直接的支持。 WCF可以同过进程或不同系统、通过本地...

Comprehensive Tutorial (MainDemo Application) 综合教程(MainDemo应用程序)【图】

Follow this tutorial to create a simple application used to store contacts and other related objects as you learn about the fundamentals of the eXpressApp Framework. Reviewing the XAF Architecture topic about the basic concepts used throughout this tutorial is highly recommended. 在学习eXpressApp框架的基础知识时，跟随本教程创建一个用于存储联系人和其他相关对象的简单应用程序。强烈建议您回顾一下XAF体...

如何在启动期间终止Spring应用程序？【代码】

我有一个Spring Boot应用程序,它有一些外部依赖项(例如,项目之外的文件需要存在才能使应用程序正常启动). 我的一个bean有一个@PostConstruct方法进行初始化.如果初始化不成功,我想干净利落地退出 – 例如,找不到文件. 调用((ConfigurableApplicationContext)applicationContext).close();在@PostConstruct方法中导致java.lang.IllegalStateException: LifecycleProcessor not initialized - call 'refresh' before invoking lifecy...

首页 / 更多教程 / 【总结】Spark应用程序的资源分配

【总结】Spark应用程序的资源分配

内容导读

内容图文

内容总结

内容备注

内容手机端

【【总结】Spark应用程序的资源分配】教程文章相关的互联网学习教程文章

应用程序无法正常启动0xc0000142【图】

Type类实例在不同应用程序域有不同副本【图】

独立应用程序中的Spring安全性【代码】

性能分析（2）- 应用程序 CPU 使用率过高案例【代码】【图】

c – 如何让Qt应用程序更小

056*：应用程序的生命周期【代码】【图】

我如何从另一个应用程序中的窗口上的控件读取数据？

【总结】Spark应用程序的资源分配

XMan 冬令营哈尔滨 day1移动应用程序渗透测试【图】

如何更快地对复杂的应用程序进行故障排除？【图】

发Matlab客户端 - 服务器应用程序，其中客户端应用程序与服务器端应用程序建立TCP / IP连接以发送压缩的灰度图像。客户端应用程序应在读取映像源文件之后并在将其发送到服务器端应用程序之前【图】

Qt 应用程序信息

WCF开发服务端应用程序【代码】【图】

Comprehensive Tutorial (MainDemo Application) 综合教程(MainDemo应用程序)【图】

如何在启动期间终止Spring应用程序？【代码】

更多教程 - 最新教程

更多教程 - 最热教程