首页 / PYTHON / python – 重命名spark数据帧中的嵌套字段

python – 重命名spark数据帧中的嵌套字段

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 重命名spark数据帧中的嵌套字段，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3520字，纯文字阅读大概需要6分钟。

内容图文

在Spark中有一个dataframe df：

 |-- array_field: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a: string (nullable = true)
 |    |    |-- b: long (nullable = true)
 |    |    |-- c: long (nullable = true)

如何将字段array_field.a重命名为array_field.a_renamed？

[更新]：

.withColumnRenamed()不适用于嵌套字段,所以我尝试了这个hacky和不安全的方法：

# First alter the schema:
schema = df.schema
schema['array_field'].dataType.elementType['a'].name = 'a_renamed'

ind = schema['array_field'].dataType.elementType.names.index('a')
schema['array_field'].dataType.elementType.names[ind] = 'a_renamed'

# Then set dataframe's schema with altered schema
df._schema = schema

我知道设置私有属性不是一个好习惯,但我不知道为df设置架构的其他方法

我认为我在正确的轨道上但是df.printSchema()仍然显示了array_field.a的旧名称,尽管df.schema == schema为True

解决方法:

Python

无法修改单个嵌套字段.您必须重新创建整个结构.在这种特殊情况下,最简单的解决方案是使用演员表.

首先是一堆进口：

from collections import namedtuple
from pyspark.sql.functions import col
from pyspark.sql.types import (
    ArrayType, LongType, StringType, StructField, StructType)

和示例数据：

Record = namedtuple("Record", ["a", "b", "c"])

df = sc.parallelize([([Record("foo", 1, 3)], )]).toDF(["array_field"])

让我们确认架构与您的情况相同：

df.printSchema()

root
 |-- array_field: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a: string (nullable = true)
 |    |    |-- b: long (nullable = true)
 |    |    |-- c: long (nullable = true)

您可以将新模式定义为字符串：

str_schema = "array<struct<a_renamed:string,b:bigint,c:bigint>>"

df.select(col("array_field").cast(str_schema)).printSchema()

root
 |-- array_field: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a_renamed: string (nullable = true)
 |    |    |-- b: long (nullable = true)
 |    |    |-- c: long (nullable = true)

或数据类型：

struct_schema = ArrayType(StructType([
    StructField("a_renamed", StringType()),
    StructField("b", LongType()),
    StructField("c", LongType())
]))

 df.select(col("array_field").cast(struct_schema)).printSchema()

root
 |-- array_field: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a_renamed: string (nullable = true)
 |    |    |-- b: long (nullable = true)
 |    |    |-- c: long (nullable = true)

斯卡拉

Scala中可以使用相同的技术：

case class Record(a: String, b: Long, c: Long)

val df = Seq(Tuple1(Seq(Record("foo", 1, 3)))).toDF("array_field")

val strSchema = "array<struct<a_renamed:string,b:bigint,c:bigint>>"

df.select($"array_field".cast(strSchema))

要么

import org.apache.spark.sql.types._

val structSchema = ArrayType(StructType(Seq(
    StructField("a_renamed", StringType),
    StructField("b", LongType),
    StructField("c", LongType)
)))

df.select($"array_field".cast(structSchema))

可能的改进：

如果您使用富有表现力的数据操作或JSON处理库,则可以更容易地将数据类型转储到dict或JSON字符串,并从那里获取它(例如,Python / toolz)：

from toolz.curried import pipe, assoc_in, update_in, map
from operator import attrgetter

# Update name to "a_updated" if name is "a"
rename_field = update_in(
    keys=["name"], func=lambda x: "a_updated" if x == "a" else x)

updated_schema = pipe(
   #  Get schema of the field as a dict
   df.schema["array_field"].jsonValue(),
   # Update fields with rename
   update_in(
       keys=["type", "elementType", "fields"],
       func=lambda x: pipe(x, map(rename_field), list)),
   # Load schema from dict
   StructField.fromJson,
   # Get data type
   attrgetter("dataType"))

df.select(col("array_field").cast(updated_schema)).printSchema()

内容总结

以上是互联网集市为您收集整理的python – 重命名spark数据帧中的嵌套字段全部内容，希望文章能够帮你解决python – 重命名spark数据帧中的嵌套字段所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/713851.html

来源：【匿名】

【上一篇】python – pyqt – 使用csv数据填充QTableWidget 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 重命名spark数据帧中的嵌套字段】教程文章相关的互联网学习教程文章

python如何重命名文件【图】

python重命名文件的方法：首先打开pycharm，找到要重命名的文件；然后依次选择【Refactor-Rename】，在重命名窗口输入新的名称；最后点击【Refactor】按钮即可。本教程操作环境：windows7系统、python3.9版，DELL G3电脑。python重命名文件的方法：1、打开pycharm2、展开项目，找到要重命名的文件3、在该文件右键-->Refactor-->Rename4、在重命名窗口输入新的名称，点击“Refactor”按钮5、可以看到文件名已经成功更改了相关免费学...

python 怎么重命名文件【代码】【图】

python重命名文件的方法：首先创建一个python示例文件；然后通过if判断文件是否是文件夹；最后通过“os.rename(file_path, file_new_path)”重命名文件即可。本文操作环境：windows7系统、python2.7.14版，DELL G3电脑。Python文件重命名代码import os def re_name(path):for file in os.listdir(path):file_path = os.path.join(path, file)# 判断这个文件是否是文件夹,是文件夹的话就调用自己,把路径拼接好传过去if os.path.isdi...

Python中如何重命名多个文件【图】

在Python3中可以使用rename()方法+listdir()方法来重命名多个文件，这两个方法都是os模块的一部分，非常方便。下面本篇文章就来带大家了解一下rename()和listdir()方法，介绍使用rename()方法+listdir()方法如何重命名多个文件，希望对大家有所帮助。os.rename()方法os.rename()方法用于重命名文件或目录，该方法没有返回值。【视频教程推荐：Python3教程】基本语法：os.rename(src, dst)　●　参数src：表示需要重命名的文件的源地...

谈谈重命名方法renames详解【图】

这篇文章主要介绍了python下os模块强大的重命名方法renames详解的相关资料,需要的朋友可以参考下python下os模块强大的重命名方法renames详解在python中有很多强大的模块，其中我们经常要使用的就是OS模块，OS模块提供了超过200个方法来供我们使用，并且这些方法都是和数据处理相关的，这里介绍下重命名这个方法。 OS的重命名方法是os.rename,我用的ipython，这个玩意很是强大，只要按下TAB键，可以帮助我们自动对齐和列出可以使...

重命名方法如何使用？总结重命名方法实例用法【图】

python重命名和删除文件定义及作用（实例分析）

今天这篇文章中我们来了解一下python中重命名和删除文件，顾名思义这篇文章就是主要来讲python重命名文件与python删除文件这两个知识点。重命名和删除文件Python的os模块提供了帮你执行文件处理操作的方法，比如重命名和删除文件。要使用这个模块，你必须先导入它，然后才可以调用相关的各种功能。rename()方法：rename()方法需要两个参数，当前的文件名和新文件名。语法如下：os.rename(current_file_name, new_file_name)例子：下...

python下os模块强大的重命名方法renames详细介绍

python下os模块强大的重命名方法renames详解在python中有很多强大的模块，其中我们经常要使用的就是OS模块，OS模块提供了超过200个方法来供我们使用，并且这些方法都是和数据处理相关的，这里介绍下重命名这个方法。 OS的重命名方法是os.rename,我用的ipython，这个玩意很是强大，只要按下TAB键，可以帮助我们自动对齐和列出可以使用的方法，发现有2个方法，分别是rename和renames，2个方法，前面的rename使用过无数次，但是后...

bat和python批量重命名文件的实现

最近从某网站下载了一批文档，但是文件是用数字串命名的文档（很多图书馆都这样吧），现在我也下载完了这些文件，也有这些文件的列表，就是不能一个一个的把文件给重命名吧所以从网上找了这几个脚本。一、使用bat脚本（windows系统默认可用）打开记事本，将这些代码写入记事本，另存为xx.bat文件（注意后缀名，很多小白保存成了xx.bat.txt，因为txt是隐藏的，以为不行）@echo off for /r “d:\pdf” %%a in (*.pdf) do (for /f “t...

用python实现批量重命名文件的代码

下面是最终代码（windows下实现的）代码如下: # -*- coding: cp936 -*- import os path = D:\\图片\\ for file in os.listdir(path): if os.path.isfile(os.path.join(path,file))==True: if file.find(.)<0: newname=file+rsfdjndk.jpg os.rename(os.path.join(path,file),os.path.join(path,newname)) print file,ok # print file.split(.)[-1] 实现的方法是：首先遍历path指定的目录，如果是文件（不是文件夹）并且文件名中...

Python批量重命名同一文件夹下文件的方法

本文实例讲述了Python批量重命名同一文件夹下文件的方法。分享给大家供大家参考。具体分析如下：朋友发了一个文件夹过来，里面的图片都以 .tmp 为后缀。手工修改的话工作量太大。故写了一个 Python 脚本进行批量重命名。对 Python 的标准库不熟，只能边查资料，或者 help() 边写代码。三行代码就可以解决这一问题。不过没有捕获异常、不能迭代同一目录下的所有文件。代码如下：import osfor file in os.listdir("."): if os....

重命名批处理python脚本

将Copy of ********.bmp或者Copy of Copy of ********.bmp 此类文件统一命名为********0.bmp 或者********00.bmp等格式，后面的0的个数代表********.bmp出现的次数+1。写了个下面的小脚本：代码如下: import os """ 这个程序是用来将文件名改名，因为在文件夹里面有很多Copy of 重文件名，因此去掉windows 重命名风格而换用新的累加命名机制作者：chenxofHit@gmail.com 时间：2011年4月13日 """ def getFileNames(dirs, dict): ...

Python文件重命名工具代码

代码如下:#Filename:brn.py #Description: batch replace certain words in file names #Use to bat rename the file in a dir(modify the suffix from a to b) for Windows Vista OS import sys import os import fnmatch import re #parse params p=input("Please input work directory(current path for enter):") if p==\r: p=. p=p.rstrip(\r) print (p) while not os.path.exists(p): print (p+ is not existed.Please input...

Python某个文件夹下的所有文件的重命名【代码】

flag为1文件名前+Python_ flag为2删除Python_ import os flag = 2 # 获取当前目录下所有文件名并返回一个列表 filelist = os.listdir() # 遍历列表进行重命名 for i in filelist:if flag == 1:new_name = 'Python_' + ielif flag == 2:length = len('Python_')new_name = i[length:]os.rename(i,new_name)

python 怎么重命名

株洲枣庄许昌通辽湖州新乡咸阳松原连云港安阳周口焦作赤峰邢台郴州宿迁赣州平顶山桂林肇庆曲靖九江商丘汕头信阳驻马店营口揭阳龙岩安庆日照遵义三明呼伦贝尔长治湘潭德阳南充乐山达州盘锦延安上饶锦州宜春宜宾张家口马鞍山吕梁抚顺临汾渭南开封莆田荆州黄冈四平承德齐齐哈尔三门峡秦皇岛 python 怎么重命名文件python重命名文件的方法：首先创建一个python示例文件；...

python 批量重命名【代码】

import osdef remove_filename(path_dir, start, end):files = [f for f in os.listdir(path_dir) if f.startswith(start) and f.endswith(end)]for file_name in files:new_file_name= file_name.replace(start,'')os.chdir(path_dir)try:if not os.path.exists(new_file_name):print(file_name, ' changed to ', new_file_name)os.rename(file_name, new_file_name)except Exception as e:print(e)

首页 / PYTHON / python – 重命名spark数据帧中的嵌套字段

python – 重命名spark数据帧中的嵌套字段

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 重命名spark数据帧中的嵌套字段】教程文章相关的互联网学习教程文章

python如何重命名文件【图】

python 怎么重命名文件【代码】【图】

Python中如何重命名多个文件【图】

谈谈重命名方法renames详解【图】

重命名方法如何使用？总结重命名方法实例用法【图】

python重命名和删除文件定义及作用（实例分析）

python下os模块强大的重命名方法renames详细介绍

bat和python批量重命名文件的实现

用python实现批量重命名文件的代码

Python批量重命名同一文件夹下文件的方法

重命名批处理python脚本

Python文件重命名工具代码

Python某个文件夹下的所有文件的重命名【代码】

python 怎么重命名

python 批量重命名【代码】

PYTHON - 相关标签

嵌套 - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程