python – numpy与多处理和mmap
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – numpy与多处理和mmap,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2774字,纯文字阅读大概需要4分钟。
内容图文
![python – numpy与多处理和mmap](/upload/InfoBanner/zyjiaocheng/708/01df9848c4f94e668d7179db9a403494.jpg)
我正在使用Python的多处理模块并行处理大型numpy数组.在主进程中使用numpy.load(mmap_mode =’r’)对数组进行内存映射.之后,multiprocessing.Pool()分叉进程(我推测).
一切似乎都很好,除了我得到的行:
AttributeError("'NoneType' object has no attribute 'tell'",)
in `<bound method memmap.__del__ of
memmap([ 0.57735026, 0.57735026, 0.57735026, 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. , 0. ], dtype=float32)>`
ignored
在unittest日志中.尽管如此,测试仍然没有通过.
知道那里发生了什么吗?
使用Python 2.7.2,OS X,NumPy 1.6.1.
更新:
经过一些调试后,我把原因归结为一个代码路径,该代码路径使用这个内存映射的numpy数组(小片)作为Pool.imap调用的输入.
显然,“问题”是多处理的方式.Pool.imap将其输入传递给新进程:它使用pickle.这不适用于mmaped numpy数组,而内部的某些内容会导致错误.
我找到了Robert Kern的this reply,它似乎解决了同样的问题.他建议为imap输入来自内存映射数组时创建一个特殊的代码路径:在生成的进程中手动映射同一个数组.
这将是如此复杂和丑陋,我宁愿忍受错误和额外的内存副本.有没有其他方法可以更轻松地修改现有代码?
解决方法:
我通常的方法(如果你可以使用额外的内存副本)是在一个进程中执行所有IO,然后将事情发送到工作线程池.要将一个memmapped数组的片段加载到内存中,只需执行x = np.array(data [yourslice])(data [yourslice] .copy()实际上不会这样做,这可能会导致一些混淆.).
首先,让我们生成一些测试数据:
import numpy as np
np.random.random(10000).tofile('data.dat')
您可以使用以下内容重现错误:
import numpy as np
import multiprocessing
def main():
data = np.memmap('data.dat', dtype=np.float, mode='r')
pool = multiprocessing.Pool()
results = pool.imap(calculation, chunks(data))
results = np.fromiter(results, dtype=np.float)
def chunks(data, chunksize=100):
"""Overly-simple chunker..."""
intervals = range(0, data.size, chunksize) + [None]
for start, stop in zip(intervals[:-1], intervals[1:]):
yield data[start:stop]
def calculation(chunk):
"""Dummy calculation."""
return chunk.mean() - chunk.std()
if __name__ == '__main__':
main()
如果你只是转而生成np.array(data [start:stop]),你就可以解决问题了:
import numpy as np
import multiprocessing
def main():
data = np.memmap('data.dat', dtype=np.float, mode='r')
pool = multiprocessing.Pool()
results = pool.imap(calculation, chunks(data))
results = np.fromiter(results, dtype=np.float)
def chunks(data, chunksize=100):
"""Overly-simple chunker..."""
intervals = range(0, data.size, chunksize) + [None]
for start, stop in zip(intervals[:-1], intervals[1:]):
yield np.array(data[start:stop])
def calculation(chunk):
"""Dummy calculation."""
return chunk.mean() - chunk.std()
if __name__ == '__main__':
main()
当然,这确实为每个块提供了额外的内存副本.
从长远来看,你可能会发现从memmap文件切换到HDF更容易.如果您的数据是多维的,则尤其如此. (我会推荐h5py,但是如果你的数据是“像桌子一样”的话pyTables很好.)
祝你好运,无论如何!
内容总结
以上是互联网集市为您收集整理的python – numpy与多处理和mmap全部内容,希望文章能够帮你解决python – numpy与多处理和mmap所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。