将大型Python阵列保存到磁盘以供以后重用-hdf5?其他方法?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了将大型Python阵列保存到磁盘以供以后重用-hdf5?其他方法?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1225字,纯文字阅读大概需要2分钟。
内容图文
![将大型Python阵列保存到磁盘以供以后重用-hdf5?其他方法?](/upload/InfoBanner/zyjiaocheng/675/11f03cf4558c4f1090aeabec11c5c588.jpg)
我目前正在重写一些python代码以提高效率,并且我对保存python数组有疑问,以便以后可以重新使用/操作它们.
我有大量数据,保存在CSV文件中.每个文件都包含我感兴趣的数据的带有时间戳记的值,并且已经达到必须处理数千万个数据点的地步.现在数据已经变得如此庞大,以至于处理时间过长且效率低下-编写当前代码的方式是每次添加一些新数据时都必须重新处理整个数据集.
我想做的是这样的:
>将所有现有数据读入python数组
>将变量数组保存到某种数据库/文件中
>然后,下次添加更多数据时,我将加载数据库,附加新数据,然后重新保存.这样,任何时候都只需要处理少量数据.
>我希望保存的数据可以被其他python脚本访问,但也应该是“人类可读的”,以便可以在OriginPro甚至Excel之类的程序中进行处理.
我的问题是:保存数据的最佳格式是什么? HDF5似乎具有我需要的所有功能-但是像SQLite这样的东西更有意义吗?
编辑:我的数据是一维的.我基本上有30个数组,它们的大小(百万,1).如果不是因为点太多,那么CSV将是理想的格式!我不太希望对单个条目进行查找-更可能的是,我可能希望绘制少量数据子集(例如,最近的100小时或最近的1000小时,等等).
解决方法:
HDF5是一个绝佳选择!它具有一个不错的界面,被广泛使用(至少在科学界中如此),许多程序都对此提供了支持(例如,matlab),还有C,C,fortran,python等库….它具有一个完整的工具集显示HDF5文件的内容.如果以后要对数据进行复杂的MPI计算,则HDF5支持同时进行读/写操作.非常适合处理非常大的数据集.
内容总结
以上是互联网集市为您收集整理的将大型Python阵列保存到磁盘以供以后重用-hdf5?其他方法?全部内容,希望文章能够帮你解决将大型Python阵列保存到磁盘以供以后重用-hdf5?其他方法?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。