【在python中读取大型csv文件的行】教程文章相关的互联网学习教程文章

在python中读取大型csv文件的行【代码】

我有一个非常大的csv文件,我无法在内存中完整加载.所以我想逐个阅读,将其转换为numpy数组,然后再进行一些处理. 我已经检查过:Lazy Method for Reading Big File in Python? 但问题是它是一个普通的读者,我无法在csvReader中找到任何指定大小的选项. 此外,因为我想将行转换为numpy数组,我不想读取任何一半的行,所以不是指定大小,我想要一些我可以在读者中指定“no of rows”的东西. 有没有内置功能或简单的方法来做到这一点.解决方...

python – 加入多个CSV文件【代码】

我有一个包含多个csv文件的文件夹.每个文件都包含日期和值列.我想将所有文件合并为一个,其中第一列包含值日期(对于每个文件是相同的),其他列由每个单个值的值填充,即(date,value_file1,value_file2 … ) 有关如何通过简单的python脚本或通过unix命令evan实现这一点的任何建议? 谢谢您的帮助!解决方法:我建议使用像csvkit’s csvjoin这样的工具pip install csvkit $csvjoin --help usage: csvjoin [-h] [-d DELIMITER] [-t] [-q Q...

Python – 从元组CSV文件中删除大括号和逗号【代码】

我正在打印到这样的csv文件:bdictionary = ## bdictionary is a big list of tuples w = csv.writer(open("testnucsv.csv", "w")) for sent in bdictionary:w.writerow(sent)它的打印效果非常好,看起来像这样:(u’My’, u’D’) (u’dog’, u’N’)……………(u’The’, u’D’) ……………………….我怎么能像这样打印出来My D dog NThe D这是我尝试过的,但它无法正常工作.它分裂了每个charachter:w = csv.writer(open("testnu...

python – 在列中搜索特定项的csv文件【代码】

我正在尝试创建一个循环,在csv文件中搜索具有公共第3和第4列的行并对它们执行操作.我的文件看起来像这样:name1,x,y,z,notes name2,a,b,c,notes name3,a,y,z,notes我使用的代码读取第一行并标识row [2]和row [3]并执行搜索文件中所有行的列组合.不幸的是,我似乎无法弄清楚如何实际搜索它们.for row in csvfile:row_identify = row[2:3]for row in csvfile:if row_identify in row:print rowelse:print "not here"我希望它打印第一行...

python – 将.csv文件中的值读入列表字典【代码】

我有一个.csv文件,其中一列名为Trigger,另外两列名为void1和void2. 数据如下所示:Trigger;void1;void good;not good;not to good;我想使用这些数据来创建一个如下所示的字典:dictionary ={"good":["not good", "not to good"]}我使用以下代码开始:df = pd.read_csv('dictionary.csv', sep =";")for index, row in df.iterrows():dictionary[row['trigger']] = row['void1']哪个有效.但是,当我尝试:df = pd.read_csv('dictionar...

使用缓冲读取器来处理大型.csv文件,Python【代码】

我正在尝试在python脚本中打开大型.csv文件(16k行,~15列),并且遇到了一些问题. 我使用内置的open()函数打开文件,然后使用输入文件声明一个csv.DictReader.循环结构如下:for (i, row) in enumerate(reader):# do stuff (send serial packet, read response)但是,如果我使用超过大约20行的文件,文件将打开,但在几次迭代中,我得到一个ValueError:对已关闭文件的I / O操作. 我的想法是我可能会耗尽内存(尽管16k行文件只有8MB,我有3GB...

Python csv文件编写列表列表【代码】

如何在python中写入csv文件,以便列表(列表列表)[['CL07001006', 'IM20010809'], ['IM75630511', 'IM75550511', 'IM75610511', 'IM75640511', 'IM75500511'],['CL0700100r','CL0700100U','PL07001006']]采用以下格式:CL07001006 IM75630511 CL0700100r IM20010809 IM75550511 CL0700100UIM75610511 PL07001006IM75640511IM75500511我试过类似下面的内容:def demo():lol = [['CL07001006', 'IM20010809'], ['IM75630511', 'IM75550...

如何在Python中创建csv文件,并将其导出(放入)到某个本地目录【代码】

这个问题可能很棘手. 我想从Python的列表中创建一个csv文件.此csv文件之前不存在.然后将其导出到某个本地目录.本地目录中也没有这样的文件.我们只是创建一个新的csv文件,并将csv文件导出(放入)在某个本地目录中. 我发现StringIO.StringIO可以从Python中的列表生成csv文件,然后接下来的步骤是什么. 谢谢. 我发现以下代码可以做到:import os import os.path import StringIO import csvdir = r"C:\Python27" if not os.path.exists(...

python – 如何读取包含井号的CSV文件?【代码】

我的文件在开头有一个NUL字节,我用“£”符号挣扎data_initial = codecs.open(filename, "rU", "utf-16") data = csv.DictReader((line.replace('\x00','') for line in data_initial), delimiter="\t")for row in data:print row我收到错误:UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xa3′ inposition 169: ordinal not in range(128)顺便说一句:如果我尝试打印这条线是否无关紧要.我只能打印’1′,错误...

在Python中通过模糊字符串匹配匹配2个大型csv文件【代码】

我试图大约匹配600,000个人的姓名(全名)到另一个拥有超过8700万观察(全名)的数据库! 我对fuzzywuzzy库的第一次尝试太慢了,所以我决定使用更快的模块模糊集.假设我有一台足够强大的计算机来加载内存中的所有数据集,我将使用964个观测值的测试文件进行以下操作,以便与50,000个观察值进行匹配:import time from cfuzzyset import cFuzzySet as FuzzySetdf1=pd.read_csv(file1,delimiter='|') # test file with 964 observations df2...

在Python中将多个CSV文件合并到电子表格的单独选项卡中【代码】

我有一个代码,可以在目录中生成多个CSV文件.我想在excel中生成一个报告,该报告将包含CSV文件作为单独的选项卡.我使用了以下代码:import pandas as pd import os import csv import glob path = "/MyScripts" all_files = glob.glob(os.path.join(path, "*.csv")) df_from_each_file = (pd.read_csv(f) for f in all_files) df_from_each_file.to_excel(writer, sheet_name='ReturnData.csv') writer.save()但它给出了以下错误...

python scrapy – 输出csv文件为空【代码】

我的主要蜘蛛代码:from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from Belray_oil.items import BelrayOilItemclass BelraySpider(BaseSpider):name = "Belray_oil"allowed_domains = ["mxdirtrider.com/"]start_urls = ["http://www.mxdirtrider.com/h-products/bel-ray/2011-02/pr-bel-ray-accessories-lubricant-oil-2-stroke-2t-mineral-engine.htm?ref=search"]def parse(self, resp...

python – 转置文件夹中的所有csv文件【代码】

上次我在本网站上提出一个问题时,我得到了帮助,关于使用带有Python的glob.glob()批处理文件夹中的csv文件.我这次尝试使用它来转置文件夹中的所有csv文件.下面的脚本只处理最后一个文件并停止.我究竟做错了什么?import csv import os import globdirectory = raw_input ("INPUT Folder") output = raw_input("OUTPUT Folder:") in_files = os.path.join(directory, '*.csv')for in_file in glob.glob(in_files):with open(in_file)...

python – 为什么在使用Pandas写入时,CSV文件小于HDF5文件?【代码】

import numpy as np import pandas as pddf = pd.DataFrame(data=np.zeros((1000000,1))) df.to_csv('test.csv') df.to_hdf('test.h5', 'df')ls -sh test* 11M test.csv 16M test.h5如果我使用更大的数据集,那么效果会更大.使用如下的HDFStore不会改变任何东西.store = pd.HDFStore('test.h5', table=True) store['df'] = np.zeros((1000000,1)) store.close()编辑:没关系.这个例子很糟糕!使用一些非平凡的数字而不是零来改变故...

读取csv文件中的特定行,python【代码】

在使用python的CSV文件中,我们可以逐行或逐行读取所有文件,我想读取特定行(行号24示例)而不读取所有文件和所有行.解决方法:你可以使用linecache.getline: linecache.getline(filename,lineno [,module_globals])Get line lineno from file named filename. This function will never raise an exception — it will return ” on errors (the terminating newline character will be included for lines that are found).import l...