python – R中大文件的数据格式是什么?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – R中大文件的数据格式是什么?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含905字,纯文字阅读大概需要2分钟。
内容图文
![python – R中大文件的数据格式是什么?](/upload/InfoBanner/zyjiaocheng/796/31cbf5f8c82d49dc844507638829dae4.jpg)
我使用Python生成一个非常大的数据文件,主要由0(假)和少数1(真)组成.它有大约700,000列和15.000行,因此大小为10.5GB.第一行是标题.
然后需要在R中读取和显示该文件.
我正在寻找合适的数据格式从Python导出我的文件.
如here所述:
HDF5 is row based. You get MUCH efficiency by having tables that are
not too wide but are fairly long.
由于我有一个非常宽的表,我认为,HDF5在我的情况下是不合适的?
那么什么数据格式最适合此目的?
压缩(zip)它也有意义吗?
我的文件示例:
id,col1,col2,col3,col4,col5,...
1,0,0,0,1,0,...
2,1,0,0,0,1,...
3,0,1,0,0,1,...
4,...
解决方法:
压缩不会帮助你,因为你必须解压缩它来处理它.如果您可以发布生成文件的代码,那可能会有很大帮助.
另外,你想在R中完成什么?在Python中可视化它可能更快,避免读取/写入10.5GB?
也许重新思考一下你如何存储数据的方法(例如:如果只有很少的话,存储1的坐标)可能是一个更好的角度.
例如,我可能只存储元组(600492,10786)并在R中实现相同的可视化,而不是存储一个700K×15K的全零表(除了600492第10786行中的1).
内容总结
以上是互联网集市为您收集整理的python – R中大文件的数据格式是什么?全部内容,希望文章能够帮你解决python – R中大文件的数据格式是什么?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。