首页 / PYTHON / python – PySpark使用dict创建新列

python – PySpark使用dict创建新列

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – PySpark使用dict创建新列，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1558字，纯文字阅读大概需要3分钟。

内容图文

使用Spark 1.6,我有一个Spark DataFrame列(名为let,比如col1),其值为A,B,C,DS,DNS,E,F,G和H,我想用值创建一个新列(比如col2)从下面的词典中,我该如何映射？ (所以f.i.’A’需要映射到’S’等……)

dict = {'A': 'S', 'B': 'S', 'C': 'S', 'DS': 'S', 'DNS': 'S', 'E': 'NS', 'F': 'NS', 'G': 'NS', 'H': 'NS'}

解决方法:

使用UDF的低效解决方案(版本无关)：

from pyspark.sql.types import StringType
from pyspark.sql.functions import udf

def translate(mapping):
    def translate_(col):
        return mapping.get(col)
    return udf(translate_, StringType())

df = sc.parallelize([('DS', ), ('G', ), ('INVALID', )]).toDF(['key'])
mapping = {
    'A': 'S', 'B': 'S', 'C': 'S', 'DS': 'S', 'DNS': 'S', 
    'E': 'NS', 'F': 'NS', 'G': 'NS', 'H': 'NS'}

df.withColumn("value", translate(mapping)("key"))

结果：

+-------+-----+
|    key|value|
+-------+-----+
|     DS|    S|
|      G|   NS|
|INVALID| null|
+-------+-----+

更高效(仅限Spark 2.0)是创建MapType文字：

from pyspark.sql.functions import col, create_map, lit
from itertools import chain

mapping_expr = create_map([lit(x) for x in chain(*mapping.items())])

df.withColumn("value", mapping_expr.getItem(col("key")))

结果相同：

+-------+-----+
|    key|value|
+-------+-----+
|     DS|    S|
|      G|   NS|
|INVALID| null|
+-------+-----+

但更有效的执行计划：

== Physical Plan ==
*Project [key#15, keys: [B,DNS,DS,F,E,H,C,G,A], values: [S,S,S,NS,NS,NS,S,NS,S][key#15] AS value#53]
+- Scan ExistingRDD[key#15]

与UDF版本相比：

== Physical Plan ==
*Project [key#15, pythonUDF0#61 AS value#57]
+- BatchEvalPython [translate_(key#15)], [key#15, pythonUDF0#61]
   +- Scan ExistingRDD[key#15]

内容总结

以上是互联网集市为您收集整理的python – PySpark使用dict创建新列全部内容，希望文章能够帮你解决python – PySpark使用dict创建新列所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/707205.html

来源：【匿名】

【上一篇】python – flask-admin表单：根据字段1的值限制字段2的值【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – PySpark使用dict创建新列】教程文章相关的互联网学习教程文章

python实例pyspark

%pyspark#查询认证用户import sys#import MySQLdbimport mysql.connectorimport pandas as pdimport datetimeimport timeoptmap = { ‘dbuser‘ : ‘haoren‘, ‘dbpass‘ : ‘G4d‘, ‘dbhost‘ : ‘172.12.112.5‘, ‘dbport‘ : 3306, ‘dbname‘ : ‘GMDB‘ }def sql_select(reqsql): ret = ‘‘ try: db_conn = my...

Python+Spark2.0+hadoop学习笔记——pyspark基础

在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。 1）在本地运行pyspark程序读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile(hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt") textFile.count() 2）在Hadoop YARN运行pyspark HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop py...

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Module Context Spark SQL和DataFrames重要的类有：pyspark.sql.SQLContext DataFrame和SQL方法的主入口pyspark.sql.DataFrame 将分布式数据集分组到指定列名的数据框中pyspark.sql.Column DataFrame中的列pyspark.sql.Row DataFrame数据的行pyspark.sql.HiveContext 访问Hive数据的主入口pyspark.sql.GroupedData 由DataFrame.groupBy()创建的聚合方法集pyspark.sql.DataFrameNaFunctions 处理丢失数据(空数据)的方法pyspark.sql....

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python项目实战：使用PySpark对大数据进行分析大数据，顾名思义就是大量的数据，一般这些数据都是PB级以上。PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。这些数据的特点是种类繁多，有视频、有语音、有图片、有文字等等。面对这么多数据，使用常规技术就没法处理了，于是产生了大数据技术。一、大数据Hadoop平台介绍大数据分成了很多派系，其中最著名的是Apache Hadoop，Clouera CDH和 Hort...

Python PySpark toLocalIterator()函数【代码】

pyspark.RDD.toLocalIterator() RDD.toLocalIterator(prefetchPartitions=False) 它是PySpark中RDD的一个方法。返回一个包含该RDD中所有元素的迭代器。这个迭代器消耗的内存和这个RDD中最大分区的内存一样大。如果选择预选，即prefetchPartitions设为True，那它可能最多消耗两个最大分区的内存。用这个函数可以方便地将RDD中的数据转换为一个迭代器，方便的进行遍历操作。参数：参数名：prefetchPartitions 参数类型：bool型...

Spark与Python结合：PySpark初学者指南【图】

Apache Spark是目前处理和使用大数据的最广泛使用的框架之一，Python是数据分析，机器学习等最广泛使用的编程语言之一。那么，为什么不一起使用它们呢？这就是Spark与python也被称为PySpark的原因。Apache Spark开发人员每年的平均年薪为110,000美元。毫无疑问，Spark在这个行业中已经被广泛使用。由于其丰富的库集，Python今天被大多数数据科学家和分析专家使用。将Python与Spark集成是开源社区的主要礼物。 Spark是用Scala语言开...

python环境下使用pyspark读取hive表【图】

python环境导入pyspark.sql 1.linux系统下,spark读取hive表配置文件：先将hive-site.xml放入linux spark内的conf内 //hive和linux下的spark连接将jar包 mysql-connector-java.jar放入linux spark内的jars如图：2.在windows系统内，配置spark配置文件：将linux内的spark/conf文件替换掉windows下的conf文件，hive-site.xml内的ip根据自己实际情况改动将mysql-connector-java.jar拷入windows 下spark/jars内 3.PyChrome下测试 ...

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢1 文档编写目的 Fayson在前面的文章《0483-如何指定PySpark的Python运行环境》介绍了使用Spark2-submit提交时指定Python的运行环境。也有部分用户需要在PySpark代码中指定Python的运行环境，那本篇文章Fayson主要介绍如何在代码中指定PySp...

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

我有一个很大的json文件,其中包含20GB以上的json结构元数据.它包含跨某些应用程序的简单用户元数据,我希望对其进行筛选以检测重复项.以下是数据外观的示例：{"created": "2015-08-04", "created_at": "2010-03-15", "username": "koleslawrulez333"} {"created": "2016-01-19", "created_at": "2012-05-25", "name": "arthurking231"} {"created": "2016-07-23", "type": "Username", "created_at": "2011-08-27", "name": "starkl...

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

我正在尝试运行文档中给出的Word2Vec的非常简单的示例： https://spark.apache.org/docs/1.4.1/api/python/_modules/pyspark/ml/feature.html#Word2Vecfrom pyspark import SparkContext, SQLContext from pyspark.mllib.feature import Word2Vec sqlContext = SQLContext(sc)sent = ("a b " * 100 + "a c " * 10).split(" ") doc = sqlContext.createDataFrame([(sent,), (sent,)], ["sentence"]) model = Word2Vec(vectorSize=5,...

python-集群上的pyspark,确保使用了所有节点

部署信息：“ pyspark –master yarn-client –num-executors 16 –driver-memory 16g –executor-memory 2g” 我正在将一个100,000行文本文件(以hdfs dfs格式)转换为带有corpus = sc.textFile(“ my_file_name”)的RDD对象.当我执行corpus.count()时,我得到100000.我意识到所有这些步骤都是在主节点上执行的. 现在,我的问题是,当我执行诸如new_corpus = corpus.map(some_function)之类的操作时,pyspark会自动在所有可用的奴隶(在我...

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM即会启动. 因此,设置配置的方法是实际去编辑启动它的shell脚本：spark-env.sh …根据此文档here. 如果要更改驱动程序的最大结果大小,通常可以这样做：spark.driver.maxResultSize.这与spark-env.sh文件中的内容等效吗？一些环境变量很容易设置,例如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置,但是spark.driver.maxResultSize的环境变量...

python-在PySpark中计算加权平均值【代码】

我正在尝试计算pyspark中的加权均值,但没有取得很大进展# Example data df = sc.parallelize([("a", 7, 1), ("a", 5, 2), ("a", 4, 3),("b", 2, 2), ("b", 5, 4), ("c", 1, -1) ]).toDF(["k", "v1", "v2"]) df.show()import numpy as np def weighted_mean(workclass, final_weight):return np.average(workclass, weights=final_weight)weighted_mean_udaf = pyspark.sql.functions.udf(weighted_mean,pyspark.sql.types.IntegerT...

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

我有一个numpy的矩阵：arr = np.array([[2,3], [2,8], [2,3],[4,5]])我需要从arr创建一个PySpark数据框.我无法手动输入值,因为arr的长度/值将动态变化,因此我需要将arr转换为数据帧. 我尝试以下代码未成功.df= sqlContext.createDataFrame(arr,["A", "B"])但是,出现以下错误.TypeError: Can not infer schema for type: <type 'numpy.ndarray'>解决方法:希望这可以帮助！import numpy as np#sample data arr = np.array([[2,3], [2...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – PySpark使用dict创建新列

python – PySpark使用dict创建新列

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – PySpark使用dict创建新列】教程文章相关的互联网学习教程文章

python实例pyspark

Python+Spark2.0+hadoop学习笔记——pyspark基础

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python PySpark toLocalIterator()函数【代码】

Spark与Python结合：PySpark初学者指南【图】

python环境下使用pyspark读取hive表【图】

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

python-集群上的pyspark,确保使用了所有节点

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

python-在PySpark中计算加权平均值【代码】

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程