【python – 在文件中写入大量数据的最快方法】教程文章相关的互联网学习教程文章

如何在python中的tarfile中写入大量数据而不使用临时文件【代码】

我在python中编写了一个小型加密模块,其任务是加密文件并将结果放在tarfile中.要加密的原始文件可以退出大,但这不是问题,因为我的程序一次只需要处理一小块数据,可以动态加密并存储. 我正在寻找一种避免两次传递的方法,首先将所有数据写入临时文件,然后将结果插入tarfile中. 基本上我做了以下(其中generator_encryptor是一个简单的生成器,它产生从源文件读取的数据块).:t = tarfile.open("target.tar", "w") tmp = file('content'...

Python利用多进程将大量数据放入有限内存的教程【图】

简介 这是一篇有关如何将大量的数据放入有限的内存中的简略教程。 与客户工作时,有时会发现他们的数据库实际上只是一个csv或Excel文件仓库,你只能将就着用,经常需要在不更新他们的数据仓库的情况下完成工作。大部分情况下,如果将这些文件存储在一个简单的数据库框架中或许更好,但时间可能不允许。这种方法对时间、机器硬件和所处环境都有要求。 下面介绍一个很好的例子:假设有一堆表格(没有使用Neo4j、MongoDB或其他类型的数...

Python批量删除mysql中千万级大量数据【代码】【图】

场景描述 线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多。运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只能删了。删,怎么删? 因为这是线上数据库,里面存放有很多其它数据表,如果直接删除这张表的数据,肯定不行,可能会对其它表有影响。尝试每次只删除一天的数据,还是卡顿的厉害,没办法,写个Python脚本批量删除吧。 具体思路是...

python – 将大量数据写入stdin【代码】

我正在向stdin写入大量数据. 我如何确保它不会阻塞?p=subprocess.Popen([path],stdout=subprocess.PIPE,stdin=subprocess.PIPE) p.stdin.write('A very very very large amount of data') p.stdin.flush() output = p.stdout.readline()在我读取一个大字符串并写入之后,它似乎挂在p.stdin.write()上. 我有一大堆文件,将按顺序写入stdin(> 1k文件) 所以会发生的是我正在运行一个循环#this loop is repeated for all the files for ...

python – pywin32和excel.写入大量数据时例外【代码】

我目前正在尝试使用pywin32库将大量数据写入excel电子表格.作为我面临的问题的一个简单示例,请使用以下代码生成1000个单元格x 1000单元格乘法表.import win32com.client from win32com.client import constants as cxl = win32com.client.gencache.EnsureDispatch("Excel.Application") xl.Visible = True Workbook = xl.Workbooks.Add() Sheets = Workbook.SheetstableSize = 1000for i in range(ta...

python – 使用PyCuda的遗传细胞自动机,如何有效地将每个细胞的大量数据传递给CUDA内核?【代码】

我正在使用PyCuda开发一种遗传细胞自动机.每个细胞都会有大量的基因组数据以及细胞参数.我想知道什么是最有效的方法1)将单元数据传递给CUDA内核,然后2)处理这些数据. 我从一个特别糟糕的(imo)开始,但仍在使用解决方案.它将每个参数传递到一个单独的数组中,然后使用switch-case和大量重复代码处理它们. 然后,意识到每个内核函数可以快速结束相当多的参数,并决定重写它. 第二种解决方案是将所有单元格的参数存储在具有额外维度的单个...

python – 有没有比通过数组更有效的方法来处理大量数据?

在那里,我正在为使用Python设置的物理测量编写数据采集和分析软件.在这个过程中,我收集了大量的数据点(很容易在1.000.000或更高的数量级),我随后会分析这些数据点.到目前为止,我正在使用浮点数的数组,原则上这是完成工作.然而,由于每次测量使用越来越多的数据点,我对获取的数据产生了奇怪的影响,这让我想知道阵列的处理是如此低效,写入它们会导致数据采集中的显着时间延迟环. 这有可能吗?您对如何在写入过程中改善处理时间有任何建...

python – 如何从分叉进程发送大量数据?【代码】

我有一个库的ctypes包装器.不幸的是,这个库不是100%可靠(偶尔会出现段错误等).由于它的使用方式,我希望包装器能够在库崩溃时具有相当的弹性. 这样做的最佳方法似乎是分配一个过程并从孩子那里发回结果.我想沿着这些方向做点什么:r, w = os.pipe() pid = os.fork()if pid == 0:# childresult = ctypes_fn()os.write(w, pickle.dumps(result))os.close(w) else:# parentos.waitpid(pid, 0)result = os.read(r, 524288) # can be th...