首页 / PYTHON / 用于分析的内存表数据结构中的Python(字典,列表,组合)

用于分析的内存表数据结构中的Python(字典,列表,组合)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用于分析的内存表数据结构中的Python(字典,列表,组合)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4363字，纯文字阅读大概需要7分钟。

内容图文

我正在尝试模拟一些我使用SQL但使用所有Python代码的代码.
在这里有一些帮助
CSV to Python Dictionary with all column names?

我现在可以将我的zipped-csv文件读成dict只有一行,最后一行. (如何获取行样本或整个数据文件？)

我希望有一个内存驻留表,当我完成时我可以像sql一样操作例如通过将坏数据与坏数据和正确条目的另一个表匹配来清理数据..然后按类型平均值按时间段和喜欢..整个数据文件大约是500,000行..我不是为了获得所有的内存而是想尽可能地解决一般情况,我再次知道如何在不诉诸SQL的情况下做什么

import csv, sys, zipfile
sys.argv[0] = "/home/tom/Documents/REdata/AllListing1RES.zip"
zip_file    = zipfile.ZipFile(sys.argv[0])
items_file  = zip_file.open('AllListing1RES.txt', 'rU')
for row in csv.DictReader(items_file, dialect='excel', delimiter='\t'):
    pass 
# Then is my result is
>>> for key in row:
print 'key=%s, value=%s' % (key, row[key])  
key=YEAR_BUILT_DESC, value=EXIST
key=SUBDIVISION, value=KNOLLWOOD
key=DOM, value=2
key=STREET_NAME, value=ORLEANS RD
key=BEDROOMS, value=3
key=SOLD_PRICE, value=
key=PROP_TYPE, value=SFR
key=BATHS_FULL, value=2
key=PENDING_DATE, value=
key=STREET_NUM, value=3828
key=SOLD_DATE, value=
key=LIST_PRICE, value=324900
key=AREA, value=200
key=STATUS_DATE, value=3/3/2011 11:54:56 PM
key=STATUS, value=A
key=BATHS_HALF, value=0
key=YEAR_BUILT, value=1968
key=ZIP, value=35243
key=COUNTY, value=JEFF
key=MLS_ACCT, value=492859
key=CITY, value=MOUNTAIN BROOK
key=OWNER_NAME, value=SPARKS
key=LIST_DATE, value=3/3/2011
key=DATE_MODIFIED, value=3/4/2011 12:04:11 AM 
key=PARCEL_ID, value=28-15-3-009-001.0000
key=ACREAGE, value=0
key=WITHDRAWN_DATE, value=
>>>

我想我在这里咆哮着一些错误的树木……
一个是我只有一行约500,000行数据文件..
二,似乎dict可能不是正确的结构,因为我认为我不能只加载所有500,000行并对它们进行各种操作.喜欢..按组和日期分享..
加上似乎重复的密钥可能会导致问题,例如县和细分等非唯一描述符.

我也不知道如何将特定的小子行读入内存(如10或100进行测试,在加载之前(我也没有得到)…我已阅读过Python文档和几个参考资料书籍,但它只是没有点击..

似乎我能找到的大多数答案都建议使用各种SQL解决方案来解决这类问题,但我很想学习使用Python实现类似结果的基础知识.在某些情况下,我认为它将更容易,更快,以及扩展我的工具集.但我很难找到相关的例子.

一个答案提示我所得到的是：

Once the reading is done right, DictReader should work for getting rows as dictionaries, a typical row-oriented structure. Oddly enough, this isn’t normally the efficient way to handle queries like yours; having only column lists makes searches a lot easier. Row orientation means you have to redo some lookup work for every row. Things like date matching requires data that is certainly not present in a CSV, like how dates are represented and which columns are dates.

An example of getting a column-oriented data structure (however, involving loading the whole file):

import csv
allrows=list(csv.reader(open('test.csv')))
# Extract the first row as keys for a columns dictionary
columns=dict([(x[0],x[1:]) for x in zip(*allrows)])
The intermediate steps of going to list and storing in a variable aren't necessary. 
The key is using zip (or its cousin itertools.izip) to transpose the table.
Then extracting column two from all rows with a certain criterion in column one:

matchingrows=[rownum for (rownum,value) in enumerate(columns['one']) if value>2]
print map(columns['two'].__getitem__, matchingrows)
When you do know the type of a column, it may make sense to parse it, using appropriate 
functions like datetime.datetime.strptime.

通过Yann Vernier

当然这个一般主题有一些很好的参考？

解决方法:

您只能从csv阅读器一次读取一行,但您可以非常轻松地将它们全部存储在内存中：

rows = []
for row in csv.DictReader(items_file, dialect='excel', delimiter='\t'):
    rows.append(row)

# rows[0]
{'keyA': 13, 'keyB': 'dataB' ... }
# rows[1]
{'keyA': 5, 'keyB': 'dataB' ... }

然后,进行聚合和计算：

sum(row['keyA'] for row in rows)

您可能希望在数据进入行之前对其进行转换,或使用更友好的数据结构.每次计算迭代超过500,000行可能会变得非常低效.

作为一名评论者提到,使用内存数据库可能对您非常有益. another question确切地询问如何将csv数据传输到sqlite数据库.

import csv
import sqlite3

conn = sqlite3.connect(":memory:")
c = conn.cursor()
c.execute("create table t (col1 text, col2 float);")

# csv.DictReader uses the first line in the file as column headings by default
dr = csv.DictReader(open('data.csv', delimiter=','))
to_db = [(i['col1'], i['col2']) for i in dr]
c.executemany("insert into t (col1, col2) values (?, ?);", to_db)

内容总结

以上是互联网集市为您收集整理的用于分析的内存表数据结构中的Python(字典,列表,组合)全部内容，希望文章能够帮你解决用于分析的内存表数据结构中的Python(字典,列表,组合)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/966636.html

来源：【匿名】

【上一篇】如何使用os windows在python 3中安装matplotlib 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【用于分析的内存表数据结构中的Python(字典,列表,组合)】教程文章相关的互联网学习教程文章

python——数据结构之单链表的实现【代码】

链表的定义：　　链表(linked list)是由一组被称为结点的数据元素组成的数据结构，每个结点都包含结点本身的信息和指向下一个结点的地址。由于每个结点都包含了可以链接起来的地址信息，所以用一个变量就能够访问整个结点序列。也就是说，结点包含两部分信息：一部分用于存储数据元素的值，称为信息域；另一部分用于存储下一个数据元素地址的指针，称为指针域。链表中的第一个结点的地址存储在一个单独的结点中，称为头结点或首结...

Python数据结构(一)【代码】

5. Data StructuresThis chapter describes some things you’ve learned about already in more detail, and adds some new things as well.这一章节将更详细的描述你已经学到的东西，并增加一些知识。5.1. More on ListsThe list data type has some more methods. Here are all of the methods of list objects:列表数据类型有很多方法，这里列出了列表对象的一下方法：list.append(x)Add an item to the end of the list. Equi...

python数据结构之树【代码】【图】

#这个类是用于定义树的基本结构，leftjd：左节点，rightjd：右节点，data：数据 class Tree(): def __init__(self,leftjd=0,rightjd=0,data=0): self.leftjd = leftjd self.rightjd = rightjd self.data = data#这个类是用于定义一个二叉树 class Btree(): def __init__(self,base=0): self.base = base #这个方法是判断根是否为空 def empty(self): if self.base ...

R语言，python和Matlab数据类型和数据结构辨析（2）

接着上一章讲，大家好.我们知道矩阵是有行和列组成的二维数组，其中每一个元素都具有相同的数据类型。矩阵的创建：一般我们使用向量进行创建，比如matrix（)函数：matrix（A，nrow=n）#设定行数n，将向量A的元素逐个、按列填进矩阵；如若设定列数，则声明ncol=m，注意列和行一般声明一个即可。要将元素按行填入矩阵，则增加声明byrow=TURE（若不声明，该参数默认为FALSE）下面给出基本的矩阵运函数 ...

第4章 Python 数据结构【代码】

本章知识点：1、元组、列表和字典的创建和使用；2、元组的遍历； 5、字典特性；3、元组和列表的"解包"操作；4、列表的排序、查找和反转；6、序列的含义；4.1 元组的结构4.1.1 元组的创1 tuple = ("apple") 2print (tuple[0]) 3print (type(tuple)) 4# 输出：a5# <class ‘str‘>View Code 1 tuple = ("apple",) 2print (tuple[0]) 3print (type(tuple)) 4# 输出：apple5# <class ‘tuple‘>View Code 4.1.2 元组的访问1 ...

python数据结构（2）【代码】【图】

队列队列代码实现class queue():def __init__(self):print(‘队列初始化‘)self.items=[]def isempty(self):return self.items==[]def enqueue(self,item):print(‘入队列：‘,item)self.items.insert(0,item)def dequeue(self):print(‘出队列：‘)res=self.items.pop()return resdef size(self):return len(self.items)q=queue() q.enqueue(1) q.enqueue(2) q.enqueue(3) print(q.dequeue())应用（击鼓传花）实现class queue():d...

Python学习系列----第六章数据结构【图】

本章主要讲的是python中重要的四种数据结构，分别是列表、元组、字典和集合。　　6.1 列表　　　list 是处理一组有序项目的数据结构，即你可以在一个列表中存储一个序列的项目。列表中的项目应该包括在方括号中，这样 Python 就知道你是在指明一个列表。一旦你创建了一个列表，你可以添加、删除或是搜索列表中的项目。　　6.2 元组　　　　元组用来将多样的对象集合到一起。元组和列表十分类似，只不过元组和字符串一样是不可变的即...

【Python&数据结构】抽象数据类型 Python类机制和异常【代码】

这篇是《数据结构与算法Python语言描述》的笔记，但是大头在Python类机制和面向对象编程的说明上面。我也不知道该放什么分类了。。总之之前也没怎么认真接触过基于类而不是独立函数的Python编程，借着本次机会仔细学习一下。抽象数据类型　　最开始的计算机语言，关注的都是如何更加有效率地计算，可以说其目的是计算层面的抽象。然而随着这个行业的不断发展，计算机不仅仅用于计算，开发也不仅只关注计算过程了，数据层面的抽象也...

Python-数据结构【代码】

ListList中的内容并不一定只有一种类型，一个List中可能既有number,又有string，还可能有子ListList用[]表示List的基本方法有:append,sort等要从一个List中删除某元素，可以使用del函数（它不是List的方法）#!/usr/bin/python mylist = [‘apple‘,‘pear‘,‘banana‘] print‘mylist is‘,mylist mylist.sort() print‘after sort, mylist is‘,mylist first = mylist[0] del(mylist[0]) print‘have bought‘,first,‘, now rem...

Python语法速查： 15. 常用数据结构【代码】

返回目录本篇索引（1）array（2）bisect（3）deque（4）defaultdict（5）namedtuple（6）heapq（7）itertools （1）arrayarray模块定义一个数组类型：array，它与列表很相似，但它的内容仅限于单一类型。如果需要有效利用存储空间，那么就需要用到array模块。例如，要存储1000万个整数，使用列表需要约160M内存，而使用array仅需40M内存，代价是array的操作比列表要慢一些。array数组不适用于数字操作（如矩阵运算），要创建高...

python数据结构-字典

字典是python中唯一内建的映射类型。（映射是通过名字引用值的数据结构）。字典中的值没有特殊顺序，但是都存储在一个特定的键（key）中。键可以是数字、字符串、元组。一、创建字典：1、创建字典：如：phonebook={‘zhangsan‘:‘233333‘,‘lisi‘:‘322233‘,‘wangwu‘:‘4323334‘}字典由多个键及其对应的值构成的对组（也把键/值对称为项）。在phonebook示例中，名字是键，电话号码是值。键和值之间用冒号（：）隔开，项之间...

python数据结构（1）【代码】【图】

检测单词是否是由颠倒字母组成的词#检测单词是否是由颠倒字母组成的词 def anagram(s1,s2):num1=[0]*26num2=[0]*26for i in range(len(s1)):pos=ord(s1[i])-ord(‘a‘)num1[pos]+=1for i in range(len(s2)):pos = ord(s2[i]) - ord(‘a‘)num2[pos]+= 1j=0state=Truewhile j<26 and state:if num1[j]!=num2[j]:state=Falsebreakj += 1return state while True:a=input(‘请输入单词：‘)b=input(‘请输入单词：‘)answer=anagram(a...

chapter . 2.2、Python内置数据结构：字符串、字节和字节数组

字符串有序的序列，是字符的集合使用单引号，双引号，三引号引注的字符序列字符串是不可变对象，我们看到的合并字符串，其实是返回一个由原来两个值复制后返回的值，会占用新的空间。从python3起，字符串是Unicode类型　　s1 = ‘string‘　　s2 = ‘‘‘this‘s a "string‘‘‘　　s3 = r"hello \n aasdasd" 　　　　:r和R表示忽略转义　　s4 = R‘windows \net‘　　sql = """select*from user where name=‘tom‘"""　　:三引...

python数据结构详解【代码】

Python中常见的数据结构可以统称为容器（container）。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。一、序列（列表、元组和字符串）序列中的每个元素都有自己的编号。Python中有6种内建的序列。其中列表和元组是最常见的类型。其他包括字符串、Unicode字符串、buffer对象和xrange对象。下面重点介绍下列表、元组和字符串。1、通用序列操作：从列表、元组以及字符串可以“抽象”出序列的一些公共通用方法...

python数据结构之列表、字典、元组、集合【代码】【图】

列表列表在python里是有序集合对象类型。列表里的对象可以是任何对象：数字，字符串，列表或者字典，元组。与字符串不同，列表是可变对象，支持原处修改的操作python的列表是：任意对象的有序集合通过偏移读取可变长度、异构以及任意嵌套属于可变序列的分组对象引用数组列表的操作列表的操作和字符串大部分都相同：合并/重复：list1+list2：结果是两个列表按顺序结合list*3：结果是列表list重复三次for i in list1: print(i)：按顺...

首页 / PYTHON / 用于分析的内存表数据结构中的Python(字典,列表,组合)

用于分析的内存表数据结构中的Python(字典,列表,组合)

内容导读

内容图文

内容总结

内容备注

内容手机端

【用于分析的内存表数据结构中的Python(字典,列表,组合)】教程文章相关的互联网学习教程文章

python——数据结构之单链表的实现【代码】

Python数据结构(一)【代码】

python数据结构之树【代码】【图】

R语言，python和Matlab数据类型和数据结构辨析（2）

第4章 Python 数据结构【代码】

python数据结构（2）【代码】【图】

Python学习系列----第六章数据结构【图】

【Python&数据结构】抽象数据类型 Python类机制和异常【代码】

Python-数据结构【代码】

Python语法速查： 15. 常用数据结构【代码】

python数据结构-字典

python数据结构（1）【代码】【图】

chapter . 2.2、Python内置数据结构：字符串、字节和字节数组

python数据结构详解【代码】

python数据结构之列表、字典、元组、集合【代码】【图】

PYTHON - 相关标签

数据结构 - 相关标签

内存 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程