python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1928字,纯文字阅读大概需要3分钟。
内容图文
![python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`](/upload/InfoBanner/zyjiaocheng/705/b8e05eb6f8384cea9563e061a46f3509.jpg)
我是PySpark的新手,面临一个奇怪的问题.我正在尝试在加载CSV数据集时将某些列设置为不可为空.我可以用一个非常小的数据集(test.csv)重现我的情况:
col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53
在第5行第2列有一个空值,我不想在我的DF中获得该行.我将所有字段设置为非可空(nullable = false)但我得到一个模式,其中所有三列都具有nullable = true.即使我将所有三列都设置为不可为空,也会发生这种情况!我正在运行最新版本的Spark 2.0.1.
这是代码:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
spark = SparkSession .builder .appName("Python Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate()
struct = StructType([ StructField("col1", StringType(), False), StructField("col2", StringType(), False), StructField("col3", StringType(), False) ])
df = spark.read.load("test.csv", schema=struct, format="csv", header="true")
df.printSchema()返回:
root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
和df.show()返回:
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
| 51|null| 53|
+----+----+----+
虽然我期待这个:
root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)
+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
+----+----+----+
解决方法:
虽然Spark行为(在这里从False切换到True是令人困惑的,但这里没有任何根本性的错误.nullable参数不是约束,而是源和类型语义的反映,它允许某些类型的优化
您声明要避免数据中的空值.为此你应该使用na.drop方法.
df.na.drop()
有关处理空值的其他方法,请查看DataFrameNaFunctions(使用DataFrame.na属性公开)文档.
CSV格式不提供任何允许您指定数据约束的工具,因此定义读者不能假定输入不为空且您的数据确实包含空值.
内容总结
以上是互联网集市为您收集整理的python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`全部内容,希望文章能够帮你解决python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。