首页 / PYTHON / python-将字符串列转换为矢量列Spark DataFrames

python-将字符串列转换为矢量列Spark DataFrames

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-将字符串列转换为矢量列Spark DataFrames，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1059字，纯文字阅读大概需要2分钟。

内容图文

我有一个Spark数据框,看起来如下：

+-----------+-------------------+
|     ID    |     features      |
+-----------+-------------------+
|   18156431|(5,[0,1,4],[1,1,1])|
|   20260831|(5,[0,4,5],[2,1,1])|   
|   91859831|(5,[0,1],[1,3])    |
|  206186631|(5,[3,4,5],[1,5])  |
|  223134831|(5,[2,3,5],[1,1,1])|
+-----------+-------------------+

在此数据框中,features列是稀疏向量.在我的脚本中,我必须将此DF作为文件保存在磁盘上.这样做时,功能部件列另存为文本列：例如“(5,[0,1,4],[1,1,1])”.
如您所料,当再次在Spark中导入时,该列将保留字符串.如何将列转换回(稀疏)矢量格式？

解决方法:

由于UDF开销不是特别有效(使用保留类型的格式是一个好主意),但是您可以执行以下操作：

from pyspark.mllib.linalg import Vectors, VectorUDT
from pyspark.sql.functions import udf

df = sc.parallelize([
    (18156431, "(5,[0,1,4],[1,1,1])") 
]).toDF(["id", "features"])

parse = udf(lambda s: Vectors.parse(s), VectorUDT())
df.select(parse("features"))

请注意,这不会直接移植到2.0.0和ML Vector.由于ML向量不提供解析方法,因此您必须解析为MLLib并使用asML：

parse = udf(lambda s: Vectors.parse(s).asML(), VectorUDT())

内容总结

以上是互联网集市为您收集整理的python-将字符串列转换为矢量列Spark DataFrames全部内容，希望文章能够帮你解决python-将字符串列转换为矢量列Spark DataFrames所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/683011.html

来源：【匿名】

【上一篇】Python如何处理“来自__future__的进口部门”？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-将字符串列转换为矢量列Spark DataFrames】教程文章相关的互联网学习教程文章

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

Python的文件是一个重要的对象，使用open()函数来打开文件，创建文件对象，进行文件的读写操作。当数据用于交换信息时，通常需要把数据保存为有格式的文本数据，可以保存为有特定的行分隔符和列分隔符的数据，这可以使用pandas模块中的函数来读写；也可以保存为json结构的数据，这可以使用json模块中的函数来实现；对于大型的数据交互，通常使用数据库。一，Python的open函数open()函数用于打开文件，创建文件对象：open(name, mod...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python 修改dataframe的列名【代码】

1. 修改全部列名 df.columnsbase_data_model.columns = [u‘有效率‘,u‘提交率‘,u‘参与度‘,u‘回放占比‘,u‘主好评率‘,u‘辅好评率‘,u‘是否付费‘] 2. 修改指定列名 df.renamedf.rename(columns={‘a‘:‘A‘}) #把原来的 a 命名为 A 原文：https://www.cnblogs.com/skyEva/p/9672777.html

python—dataframe用法【代码】

#行处理#df.iloc[1] 行索引号——获取行#df.iloc[0,1] 行列索引号——获取一个元素#df.iloc[[0,1]] 双括号默认都是行索引号——获取n行#df.iloc[0:2,1:3] 行列索引号——获取区域元素#df.loc["A"] 行名称——获取行#df.loc["A","c1"] 行列名称——获取一个元素#df.loc[["A","B"]] 双括号默认都是行名称号——获取n行#df.loc["A":"B","c1":"c2"] 行列名称——获取区域元素#列处理#df["c2"] 列名称——获取列#df[[...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

Python中从SQL型数据库读写dataframe型数据【代码】

Python的pandas包对表格化的数据处理能力很强，而SQL数据库的数据就是以表格的形式储存，因此经常将sql数据库里的数据直接读取为dataframe，分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数据。read_sql参见pandas.read_sql的文档，read_sql主要有如下几个参数：sql:SQL命令字符串con：连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立index_c...

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

Python教程栏目介绍如何嵌套JSON推荐（免费）：Python教程调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）说明：这里results是一个大的字典，issues是results其中的一个键，issues的值为一个嵌套JSON对象字典的列表，后面会看到JSON嵌套结构。问题...

pandas技巧之详解DataFrame中的apply与applymap方法【图】

相关学习推荐：python视频教程今天是pandas数据处理专题的第5篇文章，我们来聊聊pandas的一些高级运算。在上一篇文章当中，我们介绍了panads的一些计算方法，比如两个dataframe的四则运算，以及dataframe填充Null的方法。今天这篇文章我们来聊聊dataframe中的广播机制，以及apply函数的使用方法。 dataframe广播广播机制我们其实并不陌生，我们在之前介绍numpy的专题文章当中曾经介绍过广播。当我们对两个尺寸不一致的数组进行运...

pandas技巧之 DataFrame中的排序与汇总方法【图】

相关学习推荐：python教程今天是pandas数据处理专题的第六篇文章，我们来聊聊DataFrame的排序与汇总运算。在上一篇文章当中我们主要介绍了DataFrame当中的apply方法，如何在一个DataFrame对每一行或者是每一列进行广播运算，使得我们可以在很短的时间内处理整份数据。今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。排序排序是我们一个非常基本的需求，在pandas当中将这个需求进一步细分，...

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第三篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第四篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

使用pandas进行数据处理之 DataFrame篇【图】

相关学习推荐：python教程这是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF...

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

本篇文章给大家带来的内容是关于pandas.DataFrame中pivot()如何实现行转列的问题（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。示例：有如下表需要进行行转列：代码如下：# -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings import filterwarnings # 由于create table if not exists总会抛出warning，因此使用filterwarnings消除 filterwarnings(ignore, category = MySQLdb.W...

python读取文本中数据并转化为DataFrame的实例_python【图】

这篇文章给大家分享的是python读取文本中数据并转化为DataFrame的实例，具有一定的参考价值，希望可以帮助到有需要的人在技术问答中看到一个这样的问题，感觉相对比较常见，就单开一篇文章写下来。从纯文本格式文件 “file_in”中读取数据，格式如下：需要输出成“file_out”，格式如下：数据的原格式是“类别：内容”，以空行“\n”为分条目，转换后变成一个条目一行，按照类别顺序依次写出内容。建议读取后，使用pandas，把数据建...

python读取文本数据并转化为DataFrame格式的方法详解【图】

这次给大家带来python读取文本数据并转化为DataFrame格式的方法详解，python读取文本数据并转化为DataFrame的注意事项有哪些，下面就是实战案例，一起来看一下。在技术问答中看到一个这样的问题，感觉相对比较常见，就单开一篇文章写下来。从纯文本格式文件 “file_in”中读取数据，格式如下：需要输出成“file_out”，格式如下：数据的原格式是“类别：内容”，以空行“\n”为分条目，转换后变成一个条目一行，按照类别顺序依次写...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-将字符串列转换为矢量列Spark DataFrames

python-将字符串列转换为矢量列Spark DataFrames

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-将字符串列转换为矢量列Spark DataFrames】教程文章相关的互联网学习教程文章

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python 修改dataframe的列名【代码】

python—dataframe用法【代码】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

Python中从SQL型数据库读写dataframe型数据【代码】

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

pandas技巧之详解DataFrame中的apply与applymap方法【图】

pandas技巧之 DataFrame中的排序与汇总方法【图】

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

使用pandas进行数据处理之 DataFrame篇【图】

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

python读取文本中数据并转化为DataFrame的实例_python【图】

python读取文本数据并转化为DataFrame格式的方法详解【图】

PYTHON - 相关标签

字符串 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程