python – PySpark Dataframe:逗号点
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – PySpark Dataframe:逗号点,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含976字,纯文字阅读大概需要2分钟。
内容图文
![python – PySpark Dataframe:逗号点](/upload/InfoBanner/zyjiaocheng/754/44653bcdaae84bd1bb47ce7ab3e0a842.jpg)
我在浮点数中使用逗号导入数据,我想知道如何将’逗号转换为点.我正在使用pyspark数据帧,所以我尝试了这个:
commaToDot = udf(lambda x : str(x).replace(',', '.'), FloatType())
myData.withColumn('area',commaToDot(myData.area))
它绝对不起作用.
那么我们可以直接用spark替换数据框中的数据,还是应该转换为numpy类型还是其他什么?
谢谢 !
解决方法:
我想你错过了
from pyspark.sql.types import FloatType
正如Pushkr建议udf with replace会给你返回字符串列,如果你不将结果转换为float
from pyspark import SQLContext
from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("ReadCSV")
sc = SparkContext(conf=conf)
sqlctx = SQLContext(sc)
df = sqlctx.read.option("delimiter", ";").load("test.csv", format="csv")
df.show()
commaToDot = udf(lambda x : float(str(x).replace(',', '.')), FloatType())
df2=df.withColumn('area',commaToDot(df._c0))
df2.printSchema()
df2.show()
我使用单列文件,在spark 2.11 / python 3.6上测试过
内容总结
以上是互联网集市为您收集整理的python – PySpark Dataframe:逗号点全部内容,希望文章能够帮你解决python – PySpark Dataframe:逗号点所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。