首页 / PYTHON / python – 如何在调试模式下调用PySpark？

python – 如何在调试模式下调用PySpark？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何在调试模式下调用PySpark？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4173字，纯文字阅读大概需要6分钟。

内容图文

我使用Apache Spark 1.4设置了IntelliJ IDEA.

我希望能够将调试点添加到我的Spark Python脚本中,以便我可以轻松地调试它们.

我目前正在运行这一点Python来初始化spark过程

proc = subprocess.Popen([SPARK_SUBMIT_PATH, scriptFile, inputFile], shell=SHELL_OUTPUT, stdout=subprocess.PIPE)

if VERBOSE:
    print proc.stdout.read()
    print proc.stderr.read()

当spark-submit最终调用myFirstSparkScript.py时,调试模式未被启用并且正常执行.遗憾的是,编辑Apache Spark源代码并运行自定义副本是不可接受的解决方案.

有谁知道是否有可能在调试模式下使用spark-submit调用Apache Spark脚本？如果是这样,怎么样？

解决方法:

据我了解你的意图,你想要的东西在Spark架构下是不可能直接实现的.即使没有子进程调用,程序中唯一可以直接在驱动程序上访问的部分也是SparkContext.从其他部分开始,您可以通过不同的通信层实现隔离,包括至少一个(在本地模式下)JVM实例.为了说明我们使用PySpark Internals documentation的图表.

左侧框中的部分是可在本地访问的部分,可用于附加调试器.由于它最受限于JVM调用,因此除非您实际修改PySpark本身,否则实际上没有任何内容可供您使用.

右边的内容是远程发生的,从用户的角度来看,你使用的集群管理器几乎就是一个黑盒子.此外,在很多情况下,右边的Python代码只是调用JVM API.

这是不好的部分.好的部分是大多数时候不需要远程调试.排除可以轻松模拟的访问对象(如TaskContext),代码的每个部分都应该可以在本地轻松运行/测试,而无需使用Spark实例.

传递给操作/转换的函数采用标准和可预测的Python对象,并且还希望返回标准Python对象.同样重要的是这些副作用应该是免费的

因此,在一天结束时,您需要部分程序 – 一个可以交互式访问的薄层,并且仅基于输入/输出和“计算核心”进行测试,这不需要Spark进行测试/调试.

其他选择

那就是说你在这里没有完全没有选择.

本地模式

(被动地将调试器连接到正在运行的解释器)

普通的GDB和PySpark调试器都可以附加到正在运行的进程中.一旦启动了PySpark守护程序和/或工作进程,就可以执行此操作.在本地模式下,您可以通过执行虚拟操作来强制它,例如：

sc.parallelize([], n).count()

其中n是本地模式中可用的“核心”数(local [n]).在类Unix系统上逐步执行示例过程：

>启动PySpark shell：

$SPARK_HOME/bin/pyspark

>使用pgrep检查没有运行守护进程：

?  spark-2.1.0-bin-hadoop2.7$pgrep -f pyspark.daemon
?  spark-2.1.0-bin-hadoop2.7$

>同样的事情可以在PyCharm中通过以下方式确定：

alt shift a并选择Attach to Local Process：

或运行 – >附加到本地进程.

此时你应该只看到PySpark shell(可能还有一些不相关的进程).

>执行虚拟动作：

sc.parallelize([],1).count()
>现在你应该看到守护进程和worker(这里只有一个)：

?  spark-2.1.0-bin-hadoop2.7$pgrep -f pyspark.daemon
13990
14046
?  spark-2.1.0-bin-hadoop2.7$

和

具有较低pid的进程是守护进程,具有较高pid的进程是(可能)短暂的工作者.
>此时,您可以将调试器附加到感兴趣的进程：

>在PyCharm中选择要连接的过程.
>通过调用普通GDB：

gdb python <pid of running process>

这种方法的最大缺点是你在适当的时候找到了正确的翻译.

分布式模式

(使用连接到调试器服务器的活动组件)

与PyCharm

PyCharm提供Python Debug Server,可与PySpark作业一起使用.

首先,您应该为远程调试器添加配置：

> alt shift a并选择Edit Configurations或Run – >编辑配置.
>单击添加新配置(绿色加号),然后选择Python远程调试.
>根据您自己的配置配置主机和端口(确保从远程计算机到达该端口)

>启动调试服务器：

换班F9

您应该看到调试器控制台：

>确保可以通过安装或分发egg文件在工作节点上访问pyddev.
> pydevd使用必须包含在您的代码中的活动组件：

import pydevd
pydevd.settrace(<host name>, port=<port number>)

棘手的部分是找到包含它的正确位置,除非你调试批处理操作(如传递给mapPartitions的函数),否则可能需要修补PySpark源本身,例如pyspark.daemon.worker或RDD方法,如RDD.mapPartitions.假设我们对调试工作者行为感兴趣.可能的补丁可能如下所示：

diff --git a/python/pyspark/daemon.py b/python/pyspark/daemon.py
index 7f06d4288c..6cff353795 100644
--- a/python/pyspark/daemon.py
+++ b/python/pyspark/daemon.py
@@ -44,6 +44,9 @@ def worker(sock):
     """
     Called by a worker process after the fork().
     """
+    import pydevd
+    pydevd.settrace('foobar', port=9999, stdoutToServer=True, stderrToServer=True)
+
     signal.signal(SIGHUP, SIG_DFL)
     signal.signal(SIGCHLD, SIG_DFL)
     signal.signal(SIGTERM, SIG_DFL)

如果您决定修补Spark源,请务必使用位于$SPARK_HOME / python / lib中的已修补源而非打包版本.
>执行PySpark代码.回到调试器控制台,玩得开心：

其他工具

有许多工具,包括python-manhole或pyrasite,可以通过一些努力与PySpark一起使用.

注意：

当然,您可以在本地模式下使用“远程”(活动)方法,并且在某种程度上使用分布式模式的“本地”方法(您可以连接到工作节点并按照与本地模式相同的步骤).

内容总结

以上是互联网集市为您收集整理的python – 如何在调试模式下调用PySpark？全部内容，希望文章能够帮你解决python – 如何在调试模式下调用PySpark？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/714164.html

来源：【匿名】

【上一篇】python – 根据键转换numpy数组中的每个元素【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 如何在调试模式下调用PySpark？】教程文章相关的互联网学习教程文章

python实例pyspark

%pyspark#查询认证用户import sys#import MySQLdbimport mysql.connectorimport pandas as pdimport datetimeimport timeoptmap = { ‘dbuser‘ : ‘haoren‘, ‘dbpass‘ : ‘G4d‘, ‘dbhost‘ : ‘172.12.112.5‘, ‘dbport‘ : 3306, ‘dbname‘ : ‘GMDB‘ }def sql_select(reqsql): ret = ‘‘ try: db_conn = my...

Python+Spark2.0+hadoop学习笔记——pyspark基础

在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。 1）在本地运行pyspark程序读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile(hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt") textFile.count() 2）在Hadoop YARN运行pyspark HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop py...

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Module Context Spark SQL和DataFrames重要的类有：pyspark.sql.SQLContext DataFrame和SQL方法的主入口pyspark.sql.DataFrame 将分布式数据集分组到指定列名的数据框中pyspark.sql.Column DataFrame中的列pyspark.sql.Row DataFrame数据的行pyspark.sql.HiveContext 访问Hive数据的主入口pyspark.sql.GroupedData 由DataFrame.groupBy()创建的聚合方法集pyspark.sql.DataFrameNaFunctions 处理丢失数据(空数据)的方法pyspark.sql....

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python项目实战：使用PySpark对大数据进行分析大数据，顾名思义就是大量的数据，一般这些数据都是PB级以上。PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。这些数据的特点是种类繁多，有视频、有语音、有图片、有文字等等。面对这么多数据，使用常规技术就没法处理了，于是产生了大数据技术。一、大数据Hadoop平台介绍大数据分成了很多派系，其中最著名的是Apache Hadoop，Clouera CDH和 Hort...

Python PySpark toLocalIterator()函数【代码】

pyspark.RDD.toLocalIterator() RDD.toLocalIterator(prefetchPartitions=False) 它是PySpark中RDD的一个方法。返回一个包含该RDD中所有元素的迭代器。这个迭代器消耗的内存和这个RDD中最大分区的内存一样大。如果选择预选，即prefetchPartitions设为True，那它可能最多消耗两个最大分区的内存。用这个函数可以方便地将RDD中的数据转换为一个迭代器，方便的进行遍历操作。参数：参数名：prefetchPartitions 参数类型：bool型...

Spark与Python结合：PySpark初学者指南【图】

Apache Spark是目前处理和使用大数据的最广泛使用的框架之一，Python是数据分析，机器学习等最广泛使用的编程语言之一。那么，为什么不一起使用它们呢？这就是Spark与python也被称为PySpark的原因。Apache Spark开发人员每年的平均年薪为110,000美元。毫无疑问，Spark在这个行业中已经被广泛使用。由于其丰富的库集，Python今天被大多数数据科学家和分析专家使用。将Python与Spark集成是开源社区的主要礼物。 Spark是用Scala语言开...

python环境下使用pyspark读取hive表【图】

python环境导入pyspark.sql 1.linux系统下,spark读取hive表配置文件：先将hive-site.xml放入linux spark内的conf内 //hive和linux下的spark连接将jar包 mysql-connector-java.jar放入linux spark内的jars如图：2.在windows系统内，配置spark配置文件：将linux内的spark/conf文件替换掉windows下的conf文件，hive-site.xml内的ip根据自己实际情况改动将mysql-connector-java.jar拷入windows 下spark/jars内 3.PyChrome下测试 ...

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢1 文档编写目的 Fayson在前面的文章《0483-如何指定PySpark的Python运行环境》介绍了使用Spark2-submit提交时指定Python的运行环境。也有部分用户需要在PySpark代码中指定Python的运行环境，那本篇文章Fayson主要介绍如何在代码中指定PySp...

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

我有一个很大的json文件,其中包含20GB以上的json结构元数据.它包含跨某些应用程序的简单用户元数据,我希望对其进行筛选以检测重复项.以下是数据外观的示例：{"created": "2015-08-04", "created_at": "2010-03-15", "username": "koleslawrulez333"} {"created": "2016-01-19", "created_at": "2012-05-25", "name": "arthurking231"} {"created": "2016-07-23", "type": "Username", "created_at": "2011-08-27", "name": "starkl...

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

我正在尝试运行文档中给出的Word2Vec的非常简单的示例： https://spark.apache.org/docs/1.4.1/api/python/_modules/pyspark/ml/feature.html#Word2Vecfrom pyspark import SparkContext, SQLContext from pyspark.mllib.feature import Word2Vec sqlContext = SQLContext(sc)sent = ("a b " * 100 + "a c " * 10).split(" ") doc = sqlContext.createDataFrame([(sent,), (sent,)], ["sentence"]) model = Word2Vec(vectorSize=5,...

python-集群上的pyspark,确保使用了所有节点

部署信息：“ pyspark –master yarn-client –num-executors 16 –driver-memory 16g –executor-memory 2g” 我正在将一个100,000行文本文件(以hdfs dfs格式)转换为带有corpus = sc.textFile(“ my_file_name”)的RDD对象.当我执行corpus.count()时,我得到100000.我意识到所有这些步骤都是在主节点上执行的. 现在,我的问题是,当我执行诸如new_corpus = corpus.map(some_function)之类的操作时,pyspark会自动在所有可用的奴隶(在我...

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM即会启动. 因此,设置配置的方法是实际去编辑启动它的shell脚本：spark-env.sh …根据此文档here. 如果要更改驱动程序的最大结果大小,通常可以这样做：spark.driver.maxResultSize.这与spark-env.sh文件中的内容等效吗？一些环境变量很容易设置,例如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置,但是spark.driver.maxResultSize的环境变量...

python-在PySpark中计算加权平均值【代码】

我正在尝试计算pyspark中的加权均值,但没有取得很大进展# Example data df = sc.parallelize([("a", 7, 1), ("a", 5, 2), ("a", 4, 3),("b", 2, 2), ("b", 5, 4), ("c", 1, -1) ]).toDF(["k", "v1", "v2"]) df.show()import numpy as np def weighted_mean(workclass, final_weight):return np.average(workclass, weights=final_weight)weighted_mean_udaf = pyspark.sql.functions.udf(weighted_mean,pyspark.sql.types.IntegerT...

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

我有一个numpy的矩阵：arr = np.array([[2,3], [2,8], [2,3],[4,5]])我需要从arr创建一个PySpark数据框.我无法手动输入值,因为arr的长度/值将动态变化,因此我需要将arr转换为数据帧. 我尝试以下代码未成功.df= sqlContext.createDataFrame(arr,["A", "B"])但是,出现以下错误.TypeError: Can not infer schema for type: <type 'numpy.ndarray'>解决方法:希望这可以帮助！import numpy as np#sample data arr = np.array([[2,3], [2...

首页 / PYTHON / python – 如何在调试模式下调用PySpark？

python – 如何在调试模式下调用PySpark？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 如何在调试模式下调用PySpark？】教程文章相关的互联网学习教程文章

python实例pyspark

Python+Spark2.0+hadoop学习笔记——pyspark基础

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python PySpark toLocalIterator()函数【代码】

Spark与Python结合：PySpark初学者指南【图】

python环境下使用pyspark读取hive表【图】

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

python-集群上的pyspark,确保使用了所有节点

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

python-在PySpark中计算加权平均值【代码】

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

PYTHON - 相关标签

调试 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程