首页 / JSON / python-仅获得对抓取到JSON文件的一行输出

python-仅获得对抓取到JSON文件的一行输出

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-仅获得对抓取到JSON文件的一行输出，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4843字，纯文字阅读大概需要7分钟。

内容图文

好的,所以我是一般编程人员,并且专门为此目的而使用Scrapy.我编写了一个搜寻器,以从pinterest.com上的引脚获取数据.问题是我以前从要爬网的页面上的所有引脚获取数据,但是现在我只获得第一个引脚的数据.

我认为问题出在管道或蜘蛛本身.在将“ strip”添加到蜘蛛以摆脱空白之后,某些事情发生了变化,但是当我将其更改回去时,我得到了相同的输出,但是有了空白.这是蜘蛛：

from scrapy.spider import Spider
from scrapy.selector import Selector
from Pinterest.items import PinterestItem

class PinterestSpider(Spider):
    name = "pinterest"
    allowed_domains = ["pinterest.com"]
    start_urls = ["http://www.pinterest.com/llbean/pins/"]

    def parse(self, response):
        hxs = Selector(response)
        item = PinterestItem()
        items = []
        item ["pin_link"] = hxs.xpath("//div[@class='pinHolder']/a/@href").extract()[0].strip()
        item ["repin_count"] = hxs.xpath("//em[@class='socialMetaCount repinCountSmall']/text()").extract()[0].strip()
        item ["like_count"] = hxs.xpath("//em[@class='socialMetaCount likeCountSmall']/text()").extract()[0].strip()
        item ["board_name"] = hxs.xpath("//div[@class='creditTitle']/text()").extract()[0].strip()
        items.append(item)
        return items

这是我的管道：

from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals
from scrapy.contrib.exporter import JsonLinesItemExporter

class JsonLinesExportPipeline(object):

    def __init__(self):
        dispatcher.connect(self.spider_opened, signals.spider_opened)
        dispatcher.connect(self.spider_closed, signals.spider_closed)
        self.files = {}

    def spider_opened(self, spider):
        file = open('%s_items.json' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = JsonLinesItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

当我使用命令“ scrapy crawl pinterest”时,这是我在JSON文件中得到的输出：

"pin_link": "/pin/94716398388365841/", "board_name": "Outdoor Fun", "like_count": "14", "repin_count": "94"}

这正是我想要的输出,但是我只能从一个针脚得到,而不能从页面上的所有针脚得到.我花了很多时间阅读类似的问题,但找不到类似的问题.关于什么是错的任何想法？提前致谢！

编辑：哦,我猜是因为剥离功能之前的[0]？对不起,我才意识到这可能是问题所在.

编辑：嗯,那不是问题.我很确定它必须与strip功能有关,但是我似乎无法正确使用它来获取多个引脚作为输出.解决方案可以作为这个问题的一部分吗？：Scrapy: Why extracted strings are in this format?我看到一些重叠,但是我不知道如何使用它.

编辑：好的,所以当我像这样修改蜘蛛时：

from scrapy.spider import Spider
from scrapy.selector import Selector
from Pinterest.items import PinterestItem

class PinterestSpider(Spider):
name = "pinterest"
allowed_domains = ["pinterest.com"]
start_urls = ["http://www.pinterest.com/llbean/pins/"]

def parse(self, response):
    hxs = Selector(response)
    sites = hxs.xpath("//div[@class='pinWrapper']")
    items = []
    for site in sites:
        item = PinterestItem()        
        item ["pin_link"] = site.select("//div[@class='pinHolder']/a/@href").extract()[0].strip()
        item ["repin_count"] = site.select("//em[@class='socialMetaCount repinCountSmall']/text()").extract()[0].strip()
        item ["like_count"] = site.select("//em[@class='socialMetaCount likeCountSmall']/text()").extract()[0].strip()
        item ["board_name"] = site.select("//div[@class='creditTitle']/text()").extract()[0].strip()
        items.append(item)
    return items

它的确给了我几行输出,但是显然它们都具有相同的信息,因此它抓取了页面上引脚数的各项,但是都具有相同的输出：

{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}

等等

解决方法:

我没有用过Scrapy,所以这是一个疯狂的猜测.

您的选择器正在拉回多个结果.然后,您从每个列表中选择第一个值(带有切片[0]),创建一个名为item的PinterestItem,在返回该值之前将其附加到item列表中.选择器返回的所有可能结果似乎都没有循环.

因此,请提取所有结果,然后对其进行迭代以创建您的项目列表：

def parse(self, response):
    hxs = Selector(response)
    pin_links = hxs.xpath("//div[@class='pinHolder']/a/@href").extract()
    repin_counts = hxs.xpath("//em[@class='socialMetaCount repinCountSmall']/text()").extract()
    like_counts = hxs.xpath("//em[@class='socialMetaCount likeCountSmall']/text()").extract()
    board_names = hxs.xpath("//div[@class='creditTitle']/text()").extract()

    items = []
    for pin_link, repin_count, like_count, board_name in zip(pin_links, repin_counts, like_counts, board_names):
        item = PinterestItem()
        item["pin_link"] = pin_link.strip()
        item["repin_count"] = repin_count.strip()
        item["like_count"] = like_count.strip()
        item["board_name"] = board_name.strip()
        items.append(item)
    return items

内容总结

以上是互联网集市为您收集整理的python-仅获得对抓取到JSON文件的一行输出全部内容，希望文章能够帮你解决python-仅获得对抓取到JSON文件的一行输出所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/659419.html

来源：【匿名】

【上一篇】c#-从json反序列化字典,可能没有Newtonsoft.Json吗？【下一篇】浅析php中json_encode()和json_decode()

更多 ►

【python-仅获得对抓取到JSON文件的一行输出】教程文章相关的互联网学习教程文章

Python实例之抓取网易云课堂搜索数据（post方式json型数据）并保存为TXT【代码】

本实例实现了抓取网易云课堂中以‘java’为关键字的搜索结果，经详细查看请求的方式为post，请求的结果为JSON数据具体实现代码如下：import requests import json finalstr = ‘‘#初始化字符串 totlePage = 0 #初始化总页数 test = 0 #初始化数据总条数 url = ‘http://study.163.com/p/search/studycourse.json‘ headers = {‘content-type‘: ‘application/json‘}def getD...

Fiddler高级用法—Fiddler Script抓取app网页json数据并保存【代码】【图】

FiddlerScript环境搭建官网下载：https://www.telerik.com/fiddler 安装步骤参照下面这篇文章（安装证书抓取https皆有详细步骤）：https://www.cnblogs.com/liulinghua90/p/9109282.html简单Fiddler Script如下展示了Fiddler在客户端与服务端进行交互时的位置，在客户端发起http请求及接收服务端返回的数据时都可截取交互的数据。那么在Fiddler中我们就可以抓取所有http请求的数据，甚至可以更改参数再请求到服务端！！Fiddler的普...

ajax-php采集高手进：利用curl模拟登录抓取数据遇到json调用问题不成功，求助！

我最近在学习php抓取，遇到一个问题被困扰了好长时间了，我在抓取一个页面的信息（假设a.php），这个页面只是一些基本的html框架，其他关键信息是通过ajax请求（b.php）回来的，返回的是json，然后在通过页面js将json解析，绘制到页面上。问题的关键是ajax请求的信息里有个手机号码需要登录后才显示完整，我尝试的方法一：模拟登录后直接抓取页面（a.php），遇到ajax不能跨域调用；方法二：用模拟登录抓取json数据（b.php）得到（a...

python对于抓取到的json如何进行格式化整理？

我碰到这种情况，就是抓取到的数据是有十个[{'1′: 'a','3′: 'c','2′: ''},{'1′: 'a','3′: 'c','2′: ''},{'1′: 'a','3′: 'c','2′: ''},...]这个样子的数据（因为抓取了十页数据），我现在想把这十页里面的dict全部合并到一个变量里面，就像php里面的array一样可以整理成array0=>'a'这种样子的数据结构，怎么做啊？（话说python讲数据结构方面的教程哪个比较好啊？我真心觉得python那些数据结构没有php的数组来得方便啊啊啊...

php抓取这个网页的数据，只要数据，不要html内容，然后json后写入文件，新手求教

http://www.okooo.com/Upload/sohu/table_23.html 新收求教啊，这个难度在于正则上，不会写正则啊回复讨论(解决方案) $url = http://www.okooo.com/Upload/sohu/table_23.html;$s = file_get_contents($url);preg_match_all(#<table.+#isU, $s, $m);foreach(array_map(strip_tags, $m[0]) as $r) { $a = preg_split(/\s+/, $r, -1, PREG_SPLIT_NO_EMPTY); $res[] = array_chunk(array_slice($a, 0, -1), 3);}print...

php抓取这个网页的数据，只要数据，不用html内容，然后json后写入文件，新手求教

php抓取这个网页的数据，只要数据，不要html内容，然后json后写入文件，新手求教http://www.okooo.com/Upload/sohu/table_23.html 新收求教啊，这个难度在于正则上，不会写正则啊------解决方案--------------------$url = http://www.okooo.com/Upload/sohu/table_23.html;$s = file_get_contents($url);preg_match_all(#<table.+#isU, $s, $m);foreach(array_map(strip_tags, $m[0]) as $r) { $a = preg_split(/\s+/, $r, -1,...

vue使用jsonp抓取qq音乐数据的方法

1、安装jsonp npm install jsonp 2、创建jsonp.js文件，内容如下： import originJSONP from jsonp /** * 封装jsonp* @param {*} url 原始的jsonp第一个参数是url，第二个参数是option，这里为了比较好写参数做了下封装* @param {obj} data 参数* @param {*} option jsonp的option*/ export default function jsonp (url, data, option) {// 如果url没有？就加一个？拼接url += (url.indexOf(?) < 0 ? ? : &) + param(data)return ...