【python移除系统多余大文件】教程文章相关的互联网学习教程文章

python – 如何一次将超大文件读入Numpy数组N行【代码】

我有一个巨大的文件(大约30GB),每行包括2D表面上的点的协调.我需要将文件加载到Numpy数组:points = np.empty((0,2)),并在其上应用scipy.spatial.ConvexHull.由于文件的大小非常大,我无法将其一次加载到内存中,我想将其作为N行批处理加载并在小部分上应用scipy.spatial.ConvexHull,然后加载下N行!这样做有效吗?我found out在python中你可以使用islice读取文件的N行,但问题是lines_gen是一个生成器对象,它给你文件的每一行,应该在...

python – 读取和绘制从大文件中读取的数据【代码】

我们有相当大的文件,1-1.5 GB的组合(主要是日志文件)与原始数据的顺序,可以很容易地解析为csv,随后应该将其绘制成图形以生成一组图形图像. 目前,我们正在使用bash脚本将原始数据转换为csv文件,只需要绘制数字,然后将其输入到gnuplot脚本中.但这个过程非常缓慢.我试图通过用一个awk命令替换一些管道剪切,trs等来加速bash脚本,虽然这提高了速度,整个事情仍然很慢. 所以,我开始相信这个过程有更好的工具.我目前正在寻找在python numpy...

python – 我可以使用bazaar提交一个大文件,还是有更好的方法来对数据库转储进行版本控制?【代码】

Bazaar根据可用的虚拟内存限制它可以提交的文件大小(根据open bug). 我想在版本控制下放一个数据库(作为mysqldump文本文件).数据库是3 GB,我正在使用64GB内存的服务器.我不明白为什么这会是一个问题.当我尝试提交时,我收到错误中报告的错误:bzr: ERROR: exceptions.OverflowError: requested number of bytes is more than a Python string can hold有没有办法在bazaar版本控制下获得此文件? 我对bazaar的偏好是我熟悉它,但我计划...

python – 从大文件中读取而不使用h5py将整个内容加载到内存中【代码】

以下是否从数据集中读取而不将整个事物一次性加载到内存中[整个事物将不适合内存]并获取数据集的大小而不使用python中的h5py加载数据?如果没有,怎么样?h5 = h5py.File('myfile.h5', 'r') mydata = h5.get('matirx') # are all data loaded into memory by using h5.get? part_of_mydata= mydata[1000:11000,:] size_data = mydata.shape 谢谢.解决方法:get(或indexing)获取对文件的数据集的引用,但不加载任何数据.In [789]: lis...

在将大文件逐行读入Python2.7时使用内存【代码】

堆栈溢出, 我正在研究涉及一些大型文件(10-50Gb)的基因组学项目,我想将其读入Python 2.7进行处理.我不需要将整个文件读入内存,而是简单地逐行读取每个文件,执行一项小任务,然后继续. 我发现了类似的SO问题,并试图实现一些解决方案: Efficient reading of 800 GB XML file in Python 2.7 How to read large file, line by line in python 当我在17Gb文件上运行以下代码时: 脚本1(itertools):#!/usr/bin/env python2import sys im...