首页 / PYTHON / python – 如何以正确的格式将刮取的数据导出到csv文件？

python – 如何以正确的格式将刮取的数据导出到csv文件？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何以正确的格式将刮取的数据导出到csv文件？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4360字，纯文字阅读大概需要7分钟。

内容图文

根据@paultrmbrth的this建议,我对我的代码进行了改进.我需要的是从类似于this和this的页面中抓取数据,我希望csv输出如下图所示.

但我的代码的csv输出有点乱,像这样：

我有两个问题,无论如何,csv输出可能像第一张图片一样吗？而我的第二个问题是,我希望这部电影也要废弃,请给我一个提示或提供一个代码,我可以用来刮掉电影名称和内容.

UPDATE
Tarun Lalwani完美地解决了这个问题.但是现在,csv文件的标题只包含第一个已删除的网址类别.例如,当我尝试刮擦this webpage时,其中包含参考,参考,特征,精选和欺骗类别和this webpage,其中包含跟随,跟随,编辑,编辑,分拆,参考,参考,特征,精选in,Spoofs和Spoofed分类然后csv输出文件标题将只包含第一个网页的类别,参考,引用,功能,精选和欺骗,所以从第二个网页的一些类别,如跟随,跟随,编辑,编辑into和Spoofs将不在输出csv文件头上,所以它的内容.
这是我使用的代码：

import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["imdb.com"]
    start_urls = (
        'http://www.imdb.com/title/tt0093777/trivia?tab=mc&ref_=tt_trv_cnn',
        'http://www.imdb.com/title/tt0096874/trivia?tab=mc&ref_=tt_trv_cnn',
    )

    def parse(self, response):
        item = {}
        for cnt, h4 in enumerate(response.css('div.list > h4.li_group'), start=1):
            item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()
            key = h4.xpath('normalize-space()').get().strip()
            if key in ['Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']:
                values = h4.xpath('following-sibling::div[count(preceding-sibling::h4)=$cnt]', cnt=cnt).xpath(
                    'string(.//a)').getall(),
                item[key] = values
        yield item

这是exporters.py文件：

try:
    from itertools import zip_longest as zip_longest
except:
    from itertools import izip_longest as zip_longest
from scrapy.exporters import CsvItemExporter
from scrapy.conf import settings


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow([unicode(s).encode("utf-8") for s in row])

我想要实现的是我希望所有这些类别都在csv输出头上.

'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from', 'Features'

任何帮助,将不胜感激.

解决方法:

您可以使用以下提取标题

item = {}
item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()

对于CSV部分,您需要创建一个FeedExports,它可以将每行拆分成多行

from itertools import zip_longest
from scrapy.contrib.exporter import CsvItemExporter


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow(row)

然后,您需要在设置中指定Feed导出器

FEED_EXPORTERS = {
    'csv': '<yourproject>.exporters.NewLineRowCsvItemExporter',
}

假设您将代码放在exporters.py文件中.输出将是所需的

编辑-1

要设置字段及其顺序,您需要在settings.py中定义FEED_EXPORT_FIELDS

FEED_EXPORT_FIELDS = ['Title', 'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']

https://doc.scrapy.org/en/latest/topics/feed-exports.html#std:setting-FEED_EXPORT_FIELDS

内容总结

以上是互联网集市为您收集整理的python – 如何以正确的格式将刮取的数据导出到csv文件？全部内容，希望文章能够帮你解决python – 如何以正确的格式将刮取的数据导出到csv文件？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/696006.html

来源：【匿名】

【上一篇】python – 信用卡号验证器无法正常工作【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 如何以正确的格式将刮取的数据导出到csv文件？】教程文章相关的互联网学习教程文章

使用Python模块儿csv快速处理csv文件【代码】

代码如下:1import csv 2 with open(‘test.csv‘,newline=‘‘) as f: 3 reader = csv.reader(f) 4 for row in reader: 5 print(row)原文：https://www.cnblogs.com/frisk/p/11567103.html

Python3的学习笔记1：csv文件的相关操作【代码】

1. 打开csv文件import csv #打开csv文件 allElectronicsData = open("AllElectronics.csv","r",encoding=‘utf-8‘)这里的“AllElectronics.csv”是文件名2. 按行读取文件#按行读取文件 reader = csv.reader(allElectronicsData)3. 读取表格第一行的标题#读取第一行的表格title headers = next(reader) 这里区别于Python2#Python2中的写法 headers = reader.next()4. 将文件变成可查询的字典表格#将scv表格文件中的每一行元素转...

在Qt中调用python,读取csv文件，实现K近邻算法(一)【代码】【图】

目录：1.从Qt中调用py脚本里的一个无参函数，功能：打印"hello python"　　a)相关配置　　b)踩过的一些坑2.从Qt中调用py脚本里的一个有参函数并接收返回值，功能：实现 return a+b3.从py中读取csv文件，并进行一些切片分类处理4.在py中编写K近邻算法正文：1.首先在Qt中创建一个Qt Widgets Application(当然其他的也行) 我电脑里面的是python35，64位的，所以要用64位去编译它，不然会出错。这里我用的是 2.然后在项目中添加一个...

数学建模之Python操作csv文件【代码】

1.用Python通过csv文件里面的某一列，形成键值，然后统计键在其他列出现的次数。import pandas as pd import numpy as np import csv import codecs import sysdata_original = pd.read_csv('D:/csv_data_original.csv') data = pd.read_csv('D:/week1.csv') #data = data['retweeted_status_mid'].fillna('NOT PROVIDED',inplace=True) #data_transpond = data[data['retweeted_status_mid'] != 'NOT PROVIDED']#每条原创微博转发...

[Python Study Notes]pd.read_csv()函数读取csv文件绘图【代码】【图】

‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘ >>文件: pandas读取csv文件.py >>作者: liu yang >>博客： liuyang1.club >>邮箱: liuyang0001@outlook.com >>博客: www.cnblogs.com/liu66blog‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘‘...

用Python将处理数据得到的csv文件分类（按顺序）保存

用Python中的os和numpy库对文件夹及处理数据后得到的文件进行分类保存；import numpy as npimport osfor m in range(699,0,-35):　　cur_dir=‘F:/2019_09_01/‘　　folder_name=‘partdata_0_‘　　if not os.path.exists(cur_dir+folder_name+str(m)):　　　　os.mkdir(os.path.join(cur_dir,folder_name+str(m)))　　else:　　　　pass　　for j in range(4,11):　　　　np.savetxt(os.path.join(‘F:/2019_09_01/partdata_0_‘...

Python读取csv文件【代码】【图】

创建一个csv文件，命名为data.csv，文本内容如下：root,123456,login successfully root,wrong,wrong password wrong,123456,nonexistent username ,123456,username is null root,,password is null使用Excel打开如图：利用Python内置的csv读取内容：import csvwith open('data.csv', 'r', encoding='utf-8')as f:reader = csv.reader(f)for i in reader:print(i) 输出结果：['root', '123456', 'login successfully'] ['root', '...

python 实现将字典写入csv文件

shutdown={"yunfeiyang":{"username":"yunfeiyang","binding_house":{0:"1",1:"2"},"register_time":"2018-20"}}import csvcsvfile = file(‘csvtest.csv‘, ‘wb‘)writer = csv.writer(csvfile)writer.writerow([‘username‘,‘binding_hourse‘,‘register_time‘])list1=[]for i in shutdown.values(): s=tuple(list(i.values())) list1.append(s)writer.writerows(list1)原文：http://linuxnewstar.blog.51cto.com/6967359/1...

python读取csv文件示例(python操作csv)

复制代码代码如下:import csvfor line in open("test.csv"):name,age,birthday = line.split(",")name = name.strip(‘ \t\r\n‘);age = age.strip(‘ \t\r\n‘);birthday = birthday.strip(‘ \t\r\n‘); print (name + ‘\t‘ + age + ‘\t‘ + birthday)csv文件复制代码代码如下:alice, 22, 1992/03/05bob, 33, 1981/11/21cart, 40, 1974/07/13原文：http://www.jb51.net/article/47964.htm

在python中使用Hadoop处理大型csv文件【代码】

我有一个巨大的CSV文件,我想在Amazon EMR(python)上使用Hadoop MapReduce处理. 该文件有7个字段,但是,我只查看日期和数量字段."date" "receiptId" "productId" "quantity" "price" "posId" "cashierId"首先,我的mapper.pyimport sysdef main(argv):line = sys.stdin.readline()try:while line:list = line.split('\t')#If date meets criteria, add quantity to express keyif int(list[0][11:13])>=17 and int(list[0][11:13])<=...

方法示例Python如何把字典写入到CSV文件的【代码】【图】

【相关学习推荐：python教程】在实际数据分析过程中，我们分析用Python来处理数据（海量的数据），我们都是把这个数据转换为Python的对象的，比如最为常见的字典。比如现在有几十万份数据（当然一般这么大的数据，会用到数据库的概念，不会去在CPU内存里面运行），我们不可能在Excel里面用函数进行计算一些值吧，这样是不现实的。Excel只适合处理比较少的数据，具有方便快速的优势那么我们假设是这么多数据，现在我要对这个数据进行...

python中怎么读取csv文件【图】

Python读取CSV文件方法如下：如下是一个CVS文件使用Python打开CSV可以直接使用open函数打开，然后使用reader函数读取内容，实现代码如下：运行结果如下：更多Python相关技术文章，请访问Python教程栏目进行学习！以上就是python中怎么读取csv文件的详细内容，更多请关注Gxl网其它相关文章！

python怎么读取和写入csv文件【图】

Python读取与写入CSV文件需要导入Python自带的CSV模块，然后通过CSV模块中的函数csv.reader()与csv.writer()来进行CSV文件的读取与写入。写入CSV文件import csv # 需要import csv的文件包 out=open("aa.csv",wb) # 注意这里如果以‘w’的形式打开，每次写入的数据中间就会多一个空行，所以要用‘wb’ csv_write=csv.write(out,dialect=excel) # 下面进行具体的内容写入 ss=[a,3] csv_write.writerow(ss) #这样ss里...

python怎么读取csv文件【图】

Python读写csv文件前言逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列....

Python如何读取csv文件【图】

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。（推荐学习：Python视频教程）CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字...

首页 / PYTHON / python – 如何以正确的格式将刮取的数据导出到csv文件？

python – 如何以正确的格式将刮取的数据导出到csv文件？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 如何以正确的格式将刮取的数据导出到csv文件？】教程文章相关的互联网学习教程文章

使用Python模块儿csv快速处理csv文件【代码】

Python3的学习笔记1：csv文件的相关操作【代码】

在Qt中调用python,读取csv文件，实现K近邻算法(一)【代码】【图】

数学建模之Python操作csv文件【代码】

[Python Study Notes]pd.read_csv()函数读取csv文件绘图【代码】【图】

用Python将处理数据得到的csv文件分类（按顺序）保存

Python读取csv文件【代码】【图】

python 实现将字典写入csv文件

python读取csv文件示例(python操作csv)

在python中使用Hadoop处理大型csv文件【代码】

方法示例Python如何把字典写入到CSV文件的【代码】【图】

python中怎么读取csv文件【图】

python怎么读取和写入csv文件【图】

python怎么读取csv文件【图】

Python如何读取csv文件【图】

PYTHON - 相关标签

格式 - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程