首页 / PYTHON / python – 将Dask分区写入单个文件

python – 将Dask分区写入单个文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 将Dask分区写入单个文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含871字，纯文字阅读大概需要2分钟。

内容图文

dask新手,我有一个1GB的CSV文件,当我在dask数据帧中读取它时,它在我写入文件的更改后创建了大约50个分区,它创建了与分区一样多的文件.
有没有办法将所有分区写入单个CSV文件,是否有办法访问分区？
谢谢.

解决方法:

简短的回答

不,Dask.dataframe.to_csv只将CSV文件写入不同的文件,每个分区一个文件.但是,有办法解决这个问题.

连接之后

也许只是在dask.dataframe写入后连接文件？这在性能方面可能接近最优.

df.to_csv('/path/to/myfiles.*.csv')
from glob import glob
filenames = glob('/path/to/myfiles.*.csv')
with open('outfile.csv', 'w') as out:
    for fn in filenames:
        with open(fn) as f:
            out.write(f.read())  # maybe add endline here as well?

或者使用Dask.delayed

但是,您可以使用dask.delayed,using dask.delayed alongside dataframes自己完成此操作

这会为您提供一个您可以使用的延迟值列表：

list_of_delayed_values = df.to_delayed()

然后由您构建计算以将这些分区顺序写入单个文件.这并不难,但可以在调度程序上引起一些备份.

内容总结

以上是互联网集市为您收集整理的python – 将Dask分区写入单个文件全部内容，希望文章能够帮你解决python – 将Dask分区写入单个文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/700612.html

来源：【匿名】

【上一篇】在python中以下划线分割并存储第一个值【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 将Dask分区写入单个文件】教程文章相关的互联网学习教程文章

关于硬盘分区的详细介绍【图】

注：磁盘分区和格式化是高风险行为，请慎重操作。如下操作是针对新购买的数据盘，如果涉及到原有数据盘的处理，请务必对ECS Windows的数据盘创建快照以避免可能的数据丢失。购买数据盘后，默认是没有分区、格式化的，您可以参考以下方法来进行初始配置（以windows 2008为例）：1、启动左下角任务栏中的【服务器管理器】，选择【存储】--【磁盘管理】； 2、在空白分区上，右键选择【新建简单卷】； 3、启动新建简单卷向导；选...

python可视化之matplotlib绘图--蜘蛛侠钢铁侠（组合分区绘图）【代码】【图】

matplotlib绘图–本次图形涉及（并列）条形图、（堆积）柱状图、饼图、折线图、阶梯图、散点图、极线图、气泡图；子区划分：subplots()、gridspec()、add_axes()。 python可视化绘制蜘蛛侠、钢铁侠这学期学的Python可视化在重点学matplotlib库，于是想用该库里的绘图函数来组合一些有趣的画面，这里并没有用上任何的数据进行分析，只是为了熟悉一些绘图函数。绘图思路构思草图；划分子区；绘图函数绘图；结果图：代码 ①设置画...

python-朱莉娅将分区的数据帧存储到字典【代码】

尝试将python脚本翻译成Julia和Julia似乎远远超出了它的范围(诚然,我对Julia有非常原始的理解,所以我预计会有一些困难).简而言之,我试图通过列向量(具有32个级别！)分割数据帧,然后将这些分区的数据帧写入文本.在python中,很荣幸地建议我编写如下代码来拆分数据帧并将其存储在dict中：injuries = {injury: df[df['Type'] == injury] for injury in df['Type'].unique()}injuries['BROKEN PELVIS']外面有人知道如何在Julia中取得类似...

python-为什么DataFrame中缺少分区键列【代码】

我有一个加载DataFrame对象,然后使用DataFrame partitionBy方法将数据保存为实木复合地板格式的作业.然后,我发布创建的路径,以便后续作业可以使用输出.输出中的路径如下所示：/ptest/_SUCCESS /ptest/id=0 /ptest/id=0/part-00000-942fb247-1fe4-4147-a41a-bc688f932862.snappy.parquet /ptest/id=0/part-00001-942fb247-1fe4-4147-a41a-bc688f932862.snappy.parquet /ptest/id=0/part-00002-942fb247-1fe4-4147-a41a-bc688f932862...

python-Numpy分区对角矩阵【代码】

我想像这样生成分区对角矩阵A 给出矩阵BB = -np.diag(np.ones(n - 2), -1) - np.diag(np.ones(n - 2), 1) + 4 * np.diag(np.ones(n - 1))例如, 有没有一种方法可以不使用循环？抱歉,第一次错误地上传了矩阵A和B的图形.解决方法:您可以将构建块堆叠到查找表中,然后通过在其中建立索引来构建A：>>> from scipy import sparse >>> >>> n = 5 >>> B = sparse.diags([-1, 4, -1], [-1, 0, 1], (n-1, n-1), dtype=int).A >>> A = spars...

kafka python 指定分区消费【代码】

通过assign、subscribe两者之一为消费者设置消费的主题consumer = KafkaConsumer(bootstrap_servers=[127.0.0.1:9092],auto_offset_reset=latest,enable_auto_commit=True, # 自动提交消费数据的offsetconsumer_timeout_ms= 10000, # 如果1秒内kafka中没有可供消费的数据，自动退出value_deserializer=lambda m: json.loads(m.decode(ascii)), #消费json 格式的消息client_id=consumer-python3)# consumer.assign([TopicPartition(...

python-一种对集合进行分区以从子集中获取最小方差总和的策略【代码】

问题是：我有一组数字,需要将其分为k个子集.我必须找到最佳的分区策略,以使每个子集的方差最小.没有子集可以为空(方差是标准偏差的平方.) k是大于0的整数.近似值可以是1e 7 到目前为止,这是我的解决方案,适用于一些示例,但并非总是如此： >按升序对样本(一组数字)进行排序.>计算两个连续元素的距离.构造一个列表列表,子列表具有左元素和距离的索引(即[[idx,dist],[idx,dist] ……]).按距离降序对列表进行排序.>使用我拥有的列表中的...

处理pandas中的零DataFrames Python中的列分区【代码】

在Python中将pandas DataFrame列彼此分开时,处理零分母的最佳方法是什么？例如：df = pandas.DataFrame({"a": [1, 2, 0, 1, 5], "b": [0, 10, 20, 30, 50]}) df.a / df.b # yields error我想将分母为零的比率注册为NA(numpy.nan).如何在熊猫中有效地完成这项工作？转换为float64在列级别上不起作用：In [29]: df Out[29]: a b 0 1 0 1 2 10 2 0 20 3 1 30 4 5 50In [30]: df["a"].astype("float64") / df["b"].asty...

python – 将Dask分区写入单个文件【代码】

dask新手,我有一个1GB的CSV文件,当我在dask数据帧中读取它时,它在我写入文件的更改后创建了大约50个分区,它创建了与分区一样多的文件.有没有办法将所有分区写入单个CSV文件,是否有办法访问分区？谢谢.解决方法:简短的回答不,Dask.dataframe.to_csv只将CSV文件写入不同的文件,每个分区一个文件.但是,有办法解决这个问题. 连接之后也许只是在dask.dataframe写入后连接文件？这在性能方面可能接近最优.df.to_csv('/path/to/myfiles....

如何在python中使用pyarrow从S3读取分区镶木地板文件【代码】

我正在寻找使用python从s3读取多个分区目录数据的方法. data_folder / SERIAL_NUMBER = 1 / cur_date = 20-12-2012 / abcdsd0324324.snappy.parquetdata_folder / SERIAL_NUMBER = 2 / cur_date = 27-12-2012 / asdsdfsd0324324.snappy.parquet pyarrow的ParquetDataset模块具有从分区读取的能力.所以我尝试了以下代码：>>> import pandas as pd >>> import pyarrow.parquet as pq >>> import s3fs >>> a = "s3://my_bucker/path/t...

Python：将列表切成n个近似等长的分区【代码】

参见英文答案 > Splitting a list into N parts of approximately equal length 25个我正在寻找一种快速,干净,pythonic的方法来将列表划分为n个几乎相等的分区.partition([1,2,3,4,5],5)->[[1],[2],[3],[4],[5]] partition([1,2,3,4,5],2)->[[1,2],[3,4,5]] (or [[1,2,3],[4,5]]) partition([1,2,3,4,5],3)->[[1,2],[3,4],[5]] (there are other ways to slice this one too)这里有几个答案在这...

在Python中对列表进行分区【代码】

我想了解如何修改列表的内容,特别是os.listdir()返回的文件名. 文件名包含许多重复的名称,后跟下划线,后缀,然后是文件扩展名.我试图将列表中的元素剪切到文件名的第一部分,在’_’之前,所以：apple_d.jpg apple_si.jpg apple_sg.jpg变成了列表中的一个条目,’apple’. 我能够摆脱重复并重新用字母表来表示list(sorted(set(t)))但从下划线开始摆脱一切都证明是棘手的.我试图通过.rpartition(“_”)[0]来做到这一点.但这显然不适用于...

python – 有没有办法在PySpark中读取文本文件时控制分区数量【代码】

我在PySpark中使用以下命令读取文本文件rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")有没有办法指定RDD rating_data_raw应分成的分区数？我想指定大量的分区以实现更高的并发性.解决方法:正如其他用户所说,您可以在读取文件时设置将创建的最小分区数,方法是在可选参数minPartitions of textFile中进行设置.rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)另一种实现此目的的方法是使用...

python中的一个集合的分区【代码】

我有b桶0 …. b-1和m苹果0 …. m-1.在开始时,所有苹果都放在桶0中. 然后运行一些分析会导致苹果在桶之间移动.我已经通过使用2D列表(作为存储桶)实现了这一点,其中只要需要在存储桶之间移动苹果ID就会将其删除并附加.然而,对于我的分析来说,这是非常低效的,因为这些运动大约是数百万或数十亿.所以,我想知道是否有更好的解决方案来实现这样的结构？顺便说一下,选择标题,因为这非常类似于设置问题的分区,其中没有成员可以放置在多于1...

python – 使用dask.dataframe从CSV文件中读取分区尾部【代码】

使用Dash,即使在多个分区中,我们也可以轻松读取CSV文件并使用头部获取第一行.import dask.dataframe as dd df = dd.read_csv('data.csv').head(n=100, npartitions=2)但我想在多个分区上阅读我的CSV文件的最后几行,如下所示：import dask.dataframe as dd df = dd.read_csv('data.csv').tail(n=100, npartitions=2)Dask data.frame似乎不支持tail方法上的分区. 在熊猫中,我可以使用跳过来管理它,但是这个选项在Dask中似乎不可用.解...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 将Dask分区写入单个文件

python – 将Dask分区写入单个文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 将Dask分区写入单个文件】教程文章相关的互联网学习教程文章

关于硬盘分区的详细介绍【图】

python可视化之matplotlib绘图--蜘蛛侠钢铁侠（组合分区绘图）【代码】【图】

python-朱莉娅将分区的数据帧存储到字典【代码】

python-为什么DataFrame中缺少分区键列【代码】

python-Numpy分区对角矩阵【代码】

kafka python 指定分区消费【代码】

python-一种对集合进行分区以从子集中获取最小方差总和的策略【代码】

处理pandas中的零DataFrames Python中的列分区【代码】

python – 将Dask分区写入单个文件【代码】

如何在python中使用pyarrow从S3读取分区镶木地板文件【代码】

Python：将列表切成n个近似等长的分区【代码】

在Python中对列表进行分区【代码】

python – 有没有办法在PySpark中读取文本文件时控制分区数量【代码】

python中的一个集合的分区【代码】

python – 使用dask.dataframe从CSV文件中读取分区尾部【代码】

PYTHON - 相关标签

文件 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程