首页 / PYTHON / python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？

python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5854字，纯文字阅读大概需要9分钟。

内容图文

python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？

我需要删除西班牙语中的重音和来自不同数据集的其他语言的重音.

我已经使用此post中提供的代码执行了一个功能,删除了特殊的重音符号.问题是函数很慢,因为它使用UDF.
我只是想知道我是否可以提高函数的性能以在更短的时间内获得结果,因为这对小型数据帧有好处,但对大型数据帧则不行.

提前致谢.

在这里代码,您将能够按照它呈现的方式运行它：

# Importing sql types
from pyspark.sql.types import StringType, IntegerType, StructType, StructField
from pyspark.sql.functions import udf, col
import unicodedata

# Building a simple dataframe:
schema = StructType([StructField("city", StringType(), True),
                     StructField("country", StringType(), True),
                     StructField("population", IntegerType(), True)])

countries = ['Venezuela', 'US@A', 'Brazil', 'Spain']
cities = ['Maracaibó', 'New York', '   S?o Paulo   ', '~Madrid']
population = [37800000,19795791,12341418,6489162]

# Dataframe:
df = sqlContext.createDataFrame(list(zip(cities, countries, population)), schema=schema)

df.show()

class Test():
    def __init__(self, df):
        self.df = df

    def clearAccents(self, columns):
        """This function deletes accents in strings column dataFrames, 
        it does not eliminate main characters, but only deletes special tildes.

        :param columns  String or a list of column names.
        """
        # Filters all string columns in dataFrame
        validCols = [c for (c, t) in filter(lambda t: t[1] == 'string', self.df.dtypes)]

        # If None or [] is provided with column parameter:
        if (columns == "*"): columns = validCols[:]

        # Receives  a string as an argument
        def remove_accents(inputStr):
            # first, normalize strings:
            nfkdStr = unicodedata.normalize('NFKD', inputStr)
            # Keep chars that has no other char combined (i.e. accents chars)
            withOutAccents = u"".join([c for c in nfkdStr if not unicodedata.combining(c)])
            return withOutAccents

        function = udf(lambda x: remove_accents(x) if x != None else x, StringType())
        exprs = [function(col(c)).alias(c) if (c in columns) and (c in validCols) else c for c in self.df.columns]
        self.df = self.df.select(*exprs)

foo = Test(df)
foo.clearAccents(columns="*")
foo.df.show()

解决方法:

一个可能的改进是构建一个自定义Transformer,它将处理Unicode规范化,以及相应的Python包装器.它应该减少在JVM和Python之间传递数据的总体开销,并且不需要对Spark本身进行任何修改或访问私有API.

在JVM端,你需要一个类似于这个的变压器：

package net.zero323.spark.ml.feature

import java.text.Normalizer
import org.apache.spark.ml.UnaryTransformer
import org.apache.spark.ml.param._
import org.apache.spark.ml.util._
import org.apache.spark.sql.types.{DataType, StringType}

class UnicodeNormalizer (override val uid: String)
  extends UnaryTransformer[String, String, UnicodeNormalizer] {

  def this() = this(Identifiable.randomUID("unicode_normalizer"))

  private val forms = Map(
    "NFC" -> Normalizer.Form.NFC, "NFD" -> Normalizer.Form.NFD,
    "NFKC" -> Normalizer.Form.NFKC, "NFKD" -> Normalizer.Form.NFKD
  )

  val form: Param[String] = new Param(this, "form", "unicode form (one of NFC, NFD, NFKC, NFKD)",
    ParamValidators.inArray(forms.keys.toArray))

  def setN(value: String): this.type = set(form, value)

  def getForm: String = $(form)

  setDefault(form -> "NFKD")

  override protected def createTransformFunc: String => String = {
    val normalizerForm = forms($(form))
    (s: String) => Normalizer.normalize(s, normalizerForm)
  }

  override protected def validateInputType(inputType: DataType): Unit = {
    require(inputType == StringType, s"Input type must be string type but got $inputType.")
  }

  override protected def outputDataType: DataType = StringType
}

相应的构建定义(调整Spark和Scala版本以匹配您的Spark部署)：

name := "unicode-normalization"

version := "1.0"

crossScalaVersions := Seq("2.11.12", "2.12.8")

organization := "net.zero323"

val sparkVersion = "2.4.0"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-sql" % sparkVersion,
  "org.apache.spark" %% "spark-mllib" % sparkVersion
)

在Python方面,你需要一个类似于这个的包装器.

from pyspark.ml.param.shared import *
# from pyspark.ml.util import keyword_only  # in Spark < 2.0
from pyspark import keyword_only 
from pyspark.ml.wrapper import JavaTransformer

class UnicodeNormalizer(JavaTransformer, HasInputCol, HasOutputCol):

    @keyword_only
    def __init__(self, form="NFKD", inputCol=None, outputCol=None):
        super(UnicodeNormalizer, self).__init__()
        self._java_obj = self._new_java_obj(
            "net.zero323.spark.ml.feature.UnicodeNormalizer", self.uid)
        self.form = Param(self, "form",
            "unicode form (one of NFC, NFD, NFKC, NFKD)")
        # kwargs = self.__init__._input_kwargs  # in Spark < 2.0
        kwargs = self._input_kwargs
        self.setParams(**kwargs)

    @keyword_only
    def setParams(self, form="NFKD", inputCol=None, outputCol=None):
        # kwargs = self.setParams._input_kwargs  # in Spark < 2.0
        kwargs = self._input_kwargs
        return self._set(**kwargs)

    def setForm(self, value):
        return self._set(form=value)

    def getForm(self):
        return self.getOrDefault(self.form)

构建Scala包：

sbt +package

当你启动shell或提交时包括它.例如,使用Scala 2.11构建Spark：

bin/pyspark --jars path-to/target/scala-2.11/unicode-normalization_2.11-1.0.jar \
 --driver-class-path path-to/target/scala-2.11/unicode-normalization_2.11-1.0.jar

你应该准备好了.剩下的只是一点regexp魔法：

from pyspark.sql.functions import regexp_replace

normalizer = UnicodeNormalizer(form="NFKD",
    inputCol="text", outputCol="text_normalized")

df = sc.parallelize([
    (1, "Maracaibó"), (2, "New York"),
    (3, "   S?o Paulo   "), (4, "~Madrid")
]).toDF(["id", "text"])

(normalizer
    .transform(df)
    .select(regexp_replace("text_normalized", "\p{M}", ""))
    .show())

## +--------------------------------------+
## |regexp_replace(text_normalized,\p{M},)|
## +--------------------------------------+
## |                             Maracaibo|
## |                              New York|
## |                          Sao Paulo   |
## |                               ~Madrid|
## +--------------------------------------+

请注意,这遵循与内置文本转换器相同的约定,并且不是null安全的.您可以通过在createTransformFunc中检查null来轻松纠正此问题.

内容总结

以上是互联网集市为您收集整理的python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？全部内容，希望文章能够帮你解决python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/708373.html

来源：【匿名】

【上一篇】python – 短语中每个单词的大写首字母【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？】教程文章相关的互联网学习教程文章

python实例pyspark

%pyspark#查询认证用户import sys#import MySQLdbimport mysql.connectorimport pandas as pdimport datetimeimport timeoptmap = { ‘dbuser‘ : ‘haoren‘, ‘dbpass‘ : ‘G4d‘, ‘dbhost‘ : ‘172.12.112.5‘, ‘dbport‘ : 3306, ‘dbname‘ : ‘GMDB‘ }def sql_select(reqsql): ret = ‘‘ try: db_conn = my...

Python+Spark2.0+hadoop学习笔记——pyspark基础

在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。 1）在本地运行pyspark程序读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile(hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt") textFile.count() 2）在Hadoop YARN运行pyspark HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop py...

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Module Context Spark SQL和DataFrames重要的类有：pyspark.sql.SQLContext DataFrame和SQL方法的主入口pyspark.sql.DataFrame 将分布式数据集分组到指定列名的数据框中pyspark.sql.Column DataFrame中的列pyspark.sql.Row DataFrame数据的行pyspark.sql.HiveContext 访问Hive数据的主入口pyspark.sql.GroupedData 由DataFrame.groupBy()创建的聚合方法集pyspark.sql.DataFrameNaFunctions 处理丢失数据(空数据)的方法pyspark.sql....

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python项目实战：使用PySpark对大数据进行分析大数据，顾名思义就是大量的数据，一般这些数据都是PB级以上。PB是数据存储容量的单位，它等于2的50次方个字节，或者在数值上大约等于1000个TB。这些数据的特点是种类繁多，有视频、有语音、有图片、有文字等等。面对这么多数据，使用常规技术就没法处理了，于是产生了大数据技术。一、大数据Hadoop平台介绍大数据分成了很多派系，其中最著名的是Apache Hadoop，Clouera CDH和 Hort...

Python PySpark toLocalIterator()函数【代码】

pyspark.RDD.toLocalIterator() RDD.toLocalIterator(prefetchPartitions=False) 它是PySpark中RDD的一个方法。返回一个包含该RDD中所有元素的迭代器。这个迭代器消耗的内存和这个RDD中最大分区的内存一样大。如果选择预选，即prefetchPartitions设为True，那它可能最多消耗两个最大分区的内存。用这个函数可以方便地将RDD中的数据转换为一个迭代器，方便的进行遍历操作。参数：参数名：prefetchPartitions 参数类型：bool型...

Spark与Python结合：PySpark初学者指南【图】

Apache Spark是目前处理和使用大数据的最广泛使用的框架之一，Python是数据分析，机器学习等最广泛使用的编程语言之一。那么，为什么不一起使用它们呢？这就是Spark与python也被称为PySpark的原因。Apache Spark开发人员每年的平均年薪为110,000美元。毫无疑问，Spark在这个行业中已经被广泛使用。由于其丰富的库集，Python今天被大多数数据科学家和分析专家使用。将Python与Spark集成是开源社区的主要礼物。 Spark是用Scala语言开...

python环境下使用pyspark读取hive表【图】

python环境导入pyspark.sql 1.linux系统下,spark读取hive表配置文件：先将hive-site.xml放入linux spark内的conf内 //hive和linux下的spark连接将jar包 mysql-connector-java.jar放入linux spark内的jars如图：2.在windows系统内，配置spark配置文件：将linux内的spark/conf文件替换掉windows下的conf文件，hive-site.xml内的ip根据自己实际情况改动将mysql-connector-java.jar拷入windows 下spark/jars内 3.PyChrome下测试 ...

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢1 文档编写目的 Fayson在前面的文章《0483-如何指定PySpark的Python运行环境》介绍了使用Spark2-submit提交时指定Python的运行环境。也有部分用户需要在PySpark代码中指定Python的运行环境，那本篇文章Fayson主要介绍如何在代码中指定PySp...

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

我有一个很大的json文件,其中包含20GB以上的json结构元数据.它包含跨某些应用程序的简单用户元数据,我希望对其进行筛选以检测重复项.以下是数据外观的示例：{"created": "2015-08-04", "created_at": "2010-03-15", "username": "koleslawrulez333"} {"created": "2016-01-19", "created_at": "2012-05-25", "name": "arthurking231"} {"created": "2016-07-23", "type": "Username", "created_at": "2011-08-27", "name": "starkl...

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

我正在尝试运行文档中给出的Word2Vec的非常简单的示例： https://spark.apache.org/docs/1.4.1/api/python/_modules/pyspark/ml/feature.html#Word2Vecfrom pyspark import SparkContext, SQLContext from pyspark.mllib.feature import Word2Vec sqlContext = SQLContext(sc)sent = ("a b " * 100 + "a c " * 10).split(" ") doc = sqlContext.createDataFrame([(sent,), (sent,)], ["sentence"]) model = Word2Vec(vectorSize=5,...

python-集群上的pyspark,确保使用了所有节点

部署信息：“ pyspark –master yarn-client –num-executors 16 –driver-memory 16g –executor-memory 2g” 我正在将一个100,000行文本文件(以hdfs dfs格式)转换为带有corpus = sc.textFile(“ my_file_name”)的RDD对象.当我执行corpus.count()时,我得到100000.我意识到所有这些步骤都是在主节点上执行的. 现在,我的问题是,当我执行诸如new_corpus = corpus.map(some_function)之类的操作时,pyspark会自动在所有可用的奴隶(在我...

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM即会启动. 因此,设置配置的方法是实际去编辑启动它的shell脚本：spark-env.sh …根据此文档here. 如果要更改驱动程序的最大结果大小,通常可以这样做：spark.driver.maxResultSize.这与spark-env.sh文件中的内容等效吗？一些环境变量很容易设置,例如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置,但是spark.driver.maxResultSize的环境变量...

python-在PySpark中计算加权平均值【代码】

我正在尝试计算pyspark中的加权均值,但没有取得很大进展# Example data df = sc.parallelize([("a", 7, 1), ("a", 5, 2), ("a", 4, 3),("b", 2, 2), ("b", 5, 4), ("c", 1, -1) ]).toDF(["k", "v1", "v2"]) df.show()import numpy as np def weighted_mean(workclass, final_weight):return np.average(workclass, weights=final_weight)weighted_mean_udaf = pyspark.sql.functions.udf(weighted_mean,pyspark.sql.types.IntegerT...

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

我有一个numpy的矩阵：arr = np.array([[2,3], [2,8], [2,3],[4,5]])我需要从arr创建一个PySpark数据框.我无法手动输入值,因为arr的长度/值将动态变化,因此我需要将arr转换为数据帧. 我尝试以下代码未成功.df= sqlContext.createDataFrame(arr,["A", "B"])但是,出现以下错误.TypeError: Can not infer schema for type: <type 'numpy.ndarray'>解决方法:希望这可以帮助！import numpy as np#sample data arr = np.array([[2,3], [2...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？

python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 在PySpark中使用Apache Spark数据帧删除重音的最佳方法是什么？】教程文章相关的互联网学习教程文章

python实例pyspark

Python+Spark2.0+hadoop学习笔记——pyspark基础

《Spark Python API 官方文档中文版》之 pyspark.sql (一)【代码】

Python项目实战：使用PySpark对大数据进行分析【代码】【图】

Python PySpark toLocalIterator()函数【代码】

Spark与Python结合：PySpark初学者指南【图】

python环境下使用pyspark读取hive表【图】

0485-如何在代码中指定PySpark的Python运行环境【代码】【图】

python-如何使用PySpark HashPartitioner检测大型json文件中的重复项【代码】

python-尝试运行Word2Vec示例时PySpark中出现错误【代码】

python-集群上的pyspark,确保使用了所有节点

python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize？【代码】

python-在PySpark中计算加权平均值【代码】

python-如何使用“] | [”分隔符读取pyspark中的文件【代码】

python-PySpark-从Numpy矩阵创建DataFrame【代码】

PYTHON - 相关标签

APACHE - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程