首页 / PYTHON / python-熊猫：将系列字典保存到磁盘

python-熊猫：将系列字典保存到磁盘

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-熊猫：将系列字典保存到磁盘，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2610字，纯文字阅读大概需要4分钟。

内容图文

我有python pandas系列字典：

id           dicts
1            {'5': 1, '8': 20, '1800': 2}
2            {'2': 2, '8': 1, '1000': 25, '1651': 1}
...          ...
...          ...
...          ...
20000000     {'2': 1, '10': 20}

词典中的(键,值)表示(“功能”,计数).存在大约2000个独特功能.

该系列在熊猫中的内存使用量约为500MB.
将对象写入磁盘的最佳方法是什么(理想情况下,磁盘空间使用率较低,并且写入后又回读很快)？

考虑的选项(并尝试了前两个)：
-to_csv(但将字典视为字符串,因此之后转换回字典非常慢)
-cPickle(但在执行过程中用尽了内存)
-转换为稀疏的稀疏矩阵结构

解决方法:

我很好奇您的系列如何仅占用500MB.如果使用的是.memory_usage方法,则此方法将仅返回每个python对象引用所使用的总内存,这是Series系列存储的所有内容.那不算字典的实际记忆.粗略计算20,000,000 * 288字节= 5.76GB应该是您的内存使用量. 288字节是每个字典所需内存的保守估计.

转换为稀疏矩阵

无论如何,请尝试以下方法将数据转换为稀疏矩阵表示形式：

import numpy as np, pandas as pd
from sklearn.feature_extraction import DictVectorizer
from scipy.sparse import csr_matrix
import pickle

我将使用整数而不是字符串作为键,因为这将在以后保持正确的顺序.因此,假设您的系列名为dict_series：

dict_series = dict_series.apply(lambda d: {int(k):d[k] for k in d}

这可能会占用大量内存,并且从一开始就使用int作为键来创建您的系列字典可能会更好.或者只是您可以跳过此步骤.现在,构建您的稀疏矩阵：

dv = DictVectorizer(dtype=np.int32)
sparse = dv.fit_transform(dict_series)

保存到磁盘

现在,基本上,您可以从3个字段重建稀疏矩阵：sparse.data,sparse.indices,sparse.indptr(可选)sparse.shape.保存数组sparse.data,sparse.indices,sparse.indptr数组的最快,最节省内存的方法是使用np.ndarray tofile方法,该方法将数组保存为原始字节.从documentation开始：

This is a convenience function for quick storage of array data.
Information on endianness and precision is lost, so this method is not
a good choice for files intended to archive data or transport data
between machines with different endianness.

因此,此方法会丢失任何dtype信息和固有性.可以通过简单地事先记下数据类型来解决前一个问题,无论如何,您都将使用np.int32.如果您在本地工作,那么后一个问题就不成问题,但是如果可移植性很重要,则需要研究存储信息的其他方式.

# to save
sparse.data.tofile('data.dat')
sparse.indices.tofile('indices.dat')
sparse.indptr.tofile('indptr.dat')
# don't forget your dict vectorizer!
with open('dv.pickle', 'wb') as f:
    pickle.dump(dv,f) # pickle your dv to be able to recover your original data!

要恢复一切：

with open('dv.pickle', 'rb') as f:
    dv = pickle.load(f)

sparse = csr_matrix((np.fromfile('data.dat', dtype = np.int32),
                     np.fromfile('indices.dat', dtype = np.int32),
                     np.fromfile('indptr.dat', dtype = np.int32))

original = pd.Series(dv.inverse_transform(sparse))

内容总结

以上是互联网集市为您收集整理的python-熊猫：将系列字典保存到磁盘全部内容，希望文章能够帮你解决python-熊猫：将系列字典保存到磁盘所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/664710.html

来源：【匿名】

【上一篇】如何在Python中通过内部类获取伪私有属性？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-熊猫：将系列字典保存到磁盘】教程文章相关的互联网学习教程文章

python第三方库系列之十八--python/django test库

django是属于python语音的web框架，要说django測试。也能够先说说python的測试。django能够用python的方式測试，当然，django也基于python封装了一个自己的測试库。一、python的測试--unitest库def my_func(a_list, idx):return a_list[idx]import unittest class MyFuncTestCase(unittest.TestCase):def testBasic(self):a = ['larry', 'curly', 'moe']self.assertEqual(my_func(a, 0), 'larry')self.assertEqual(my_func(a, 1),...

Python科学计算系列11—几何绘图【代码】【图】

1.显函数图像绘制例：绘制y=sinx的图像代码如下：from sympy import *x = symbols(‘x‘) plot(sin(x), (x, -2 * pi, 2 * pi))运行结果：2.隐函数图像绘制例：绘制11x2-12|x|y+11y2=121的图像代码如下：from sympy import *x, y = symbols(‘x y‘) plot_implicit(Eq(11 * x ** 2 - 12 * abs(x) * y + 11 * y ** 2, 121))运行结果：3.三维图像绘制例：绘制y=xe^(-x2-y2)的图像代码如下：from sympy import * from sympy.plotting i...

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

财经数据接口包tushare的使用（一）Tushare是一款开源免费的金融数据接口包，可以用于获取股票的历史数据、年度季度报表数据、实时分笔数据、历史分笔数据，本文对tushare的用法，已经存在的一些问题做一些介绍。一：安装tushare为避免由于依赖包缺失导致安装失败，请先安装anaconda,百度网盘地址：链接：http://pan.baidu.com/s/1qYDQUGs 密码：6wq8 安装直接一直下一步即可安装完成之后，anaconda会自动配置环境变量，直接就可...

Python Selenium系列学习

以下记录刚接触Python Selenium操作Web UI的学习问题：1.python selenium三种等待方式：　　①强制等待：time.sleep(value):设置等待最简单的方法就是强制等待，其实就是time.sleep()方法，不管它什么情况，让程序暂停运行一定时间，时间过后继续运行；缺点时不智能，设置的时间太短，元素还没有加载出来，那照样会报错；设置的时间太长，则会浪费时间，不要小瞧每次几秒的时间，case多了，代码量大了，很多个几秒就会影响整体的运...

Python图形编程探索系列-07-程序登录界面设计【代码】【图】

设计任务初步设计程序登录界面，详细分析设计步骤。程序详细分析基本框架设计import tkinter as tk import tkinter.messagebox root = tk.Tk() # 创建应用程序窗口 root.title("用户登录界面设计") root.geometry("230x100") # --------功能块代码开始-------# --------功能块代码结束------ root.mainloop()设计标签用于提示用户labelName = tk.Label(root, text='用户姓名：', justify=tk.RIGHT, width=80) labelPwd = tk...

Python-系列-[for 循环]-[控制台]【代码】【图】

1‘‘‘ 2 1.测试Pythonfor循环3‘‘‘ 4 5for letter in‘python‘: # 使用for循环定义一个变量, 用来询问 6if letter == ‘h‘:7break# 如果当前变量值等于字符 h 则返回 8print("当前字母是:"+letter)910# 定义一个列表11 name = [‘张三‘,‘李四‘,‘王五‘] 12print(name) 13# 循环打印列表中的数据14for test in name: 15print("学生姓名:"+test) 1617# 利用循环索引去迭代数据18for index in range(len(name)): 1...

JavaScript算法 ,Python算法,Go算法,java算法,系列之【归并排序】篇【代码】【图】

常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括： 650) this.width=650;" src="/upload/getfiles/default/2022/11/8/20221108060054389.jpg" title="1513609480-59142359dda6f_articlex.png" />归并排序（英语：Merge sort，或mergesort），是创建在归并操作上的一种有效的排序算法，效率为O(n log n)。1945年由约翰·冯·诺伊曼首次提出。该算法是采用分治法...

Python开发WebService系列教程之REST,web.py,eurasia,Django

在Bioinformatics(生物信息学)领域，WebService是很重要的一种数据交换技术，未来必将更加重要。目前EBI所提供的WebService就分别有SOAP和REST两种方式的服务，不管是数据服务还是计算服务（计算任务提交）。1 Python + SOAP/WSDL/UDDI最普遍的做法（个人观点）是使用 python ZSI2.0 ，ZSI还依赖于 SOAPpy 和 pyXML 等LIB。SOAP协议很多人都很熟悉，有很多现有的应用也都使用Java等语言来开发服务端，而客户端除了java，绝大多...

测试开发系列之Python开发mock接口（二）【图】

上一篇咱们已经把开发前的环境准备好了，还需要再做一点准备，你的账户信息是存在哪的呢，当然是存在数据库里的，咱们在去支付，扣钱的时候，肯定是从数据库里面操作的，去更新账户表里面的数据，所以咱们先要把数据库准备好，建好账户表，初始化几条账户信息，这样才能完整的把这个mock接口给完成。这篇咱们就学习一下python怎么操作数据库，怎么执行sql，数据库使用sqlite，sqlite是一个跨平台开源的轻量级关系型数据库，不需要配...

Python系列-格式化数据并排序【代码】【图】

目的:将几个记录时间时刻的数据格式化统一，然后进行排序。1.前提有四个文件，文件的格式都不一样，都表示时间 james.txt‘2-34‘, ‘3:21‘, ‘2.34‘, ‘2.45‘, ‘3.01‘, ‘2:01‘, ‘2:01‘, ‘3:10‘, ‘2-22‘julie.txt‘2.59‘, ‘2.11‘, ‘2:11‘, ‘2:23‘, ‘3-10‘, ‘2-23‘, ‘3:10‘, ‘3.21‘, ‘3-21‘mikey.txt‘2:22‘, ‘3.01‘, ‘3:01‘, ‘3.02‘, ‘3:02‘, ‘3.02‘, ‘3:22‘, ‘2.49‘, ‘2:38‘sara...

vagrant系列教程(五)：vagrant搭建python开发环境【代码】

这是我写的vagrant系列的最后一篇文章了。因为前面说了那么多环境搭建的东东。相信大家已经基本掌握了vagrant搭建环境的基本技能。配置vagrant文件之前文章已经说过，如果通过vagrant的配置文件，来完成多机器的搭建。简单快捷。今天再来一个python的机器。只需如下配置：config.vm.define :python do |python|python.vm.provider "virtualbox" do |v|v.customize ["modifyvm", :id, "--name", "python", "--memory", "512"]endpyt...

Python+Django+SAE系列教程11-----request/pose/get/表单【图】

表单request，post，get首先我们来看看Request对象，在这个对象中包含了一些有用的信息，学过B/S开发的人来说这并不陌生，我们来看看在Django中是如何实现的：属性/方法说明举例request.path除域名以外的请求路径，以正斜杠开头"/hello/"request.get_host()主机名（比如，通常所说的域名）"127.0.0.1:8000" or"www.example.com"request.get_full_path()请求路径，可能包含查询字符串"/hello/?print=true"request.is_secure()如果通...

python的collection系列-有序字典（OrderedDict）【代码】

orderdDict是对字典类型的补充，他记住了字典元素添加的顺序注意：字典默认循环只输出key 1import collections2 dic = collections.OrderedDict()3 dic["k1"] = "v1" 4 dic["k2"] = "v2" 5 dic["k3"] = "v3" 6print(dic)7#实现原理：相当于用列表（有序）来维护字典（无序）排序,以下仅供理解 8# dic = {"k1":"v1","k2":"v2"} 9# li = ["k1","k2"]10# for i in li:11# print(dic.get(i))1213执行结果：无论执行多少次结果一样 ...

python实用小技巧自问自答系列(一)：查看类中函数文档doc的方法【图】

问题：如何查看某个类的方法文档说明或者是函数的参数列表情况?　　答：　　　　　　方法一：直接在需要查询的方法后面加上".__doc__"即可以打印出该方法的文档说明(需要先导入该方法所属模块)　　　　　　　　如：方法二：在windows的命令行模式下还可以输入:“python -m pydoc 方法名”获取该方法的文档说明　　　　　　　　　　如：　　　　　　方法三：在ipython的命令行解释器模式下可以通过方法名+问号的方式来查看该方法的文...

python系列------输入输出【图】

输入x = 3print(x)age=input(“please input string:”)input函数的使用650) this.width=650;" src="/upload/getfiles/default/2022/11/12/20221112013948238.jpg" title="1.png" />input函数是读取的字符串，不可以当做整形来使用【示例】star=input(‘input your age:’)当你输入一个数字时比如是22，你再通过赋值是不可以的age=age+1650) this.width=650;" src="/upload/getfiles/default/2022/11/12/20221112013948393.jpg" ti...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python-熊猫：将系列字典保存到磁盘

python-熊猫：将系列字典保存到磁盘

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-熊猫：将系列字典保存到磁盘】教程文章相关的互联网学习教程文章

python第三方库系列之十八--python/django test库

Python科学计算系列11—几何绘图【代码】【图】

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

Python Selenium系列学习

Python图形编程探索系列-07-程序登录界面设计【代码】【图】

Python-系列-[for 循环]-[控制台]【代码】【图】

JavaScript算法 ,Python算法,Go算法,java算法,系列之【归并排序】篇【代码】【图】

Python开发WebService系列教程之REST,web.py,eurasia,Django

测试开发系列之Python开发mock接口（二）【图】

Python系列-格式化数据并排序【代码】【图】

vagrant系列教程(五)：vagrant搭建python开发环境【代码】

Python+Django+SAE系列教程11-----request/pose/get/表单【图】

python的collection系列-有序字典（OrderedDict）【代码】

python实用小技巧自问自答系列(一)：查看类中函数文档doc的方法【图】

python系列------输入输出【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程