首页 / PYTHON / python-Scrapy-获取正在解析的项目的索引？

python-Scrapy-获取正在解析的项目的索引？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-Scrapy-获取正在解析的项目的索引？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1729字，纯文字阅读大概需要3分钟。

内容图文

我正在尝试使用Scrapy从数据库加载一些XPATH规则.

到目前为止,我编写的代码运行良好,但是经过一些调试后,我意识到Scrapy正在异步解析每个项目,这意味着我无法控制要解析哪个项目的顺序.

我想做的是找出命中parse()函数的列表中当前正在解析的项,因此我可以将该索引引用到数据库中的行并获取正确的XPATH查询.我目前这样做的方式是使用一个名为item_index的变量,并在每次项目迭代后将其递增.现在我意识到这还不够,我希望有一些内部功能可以帮助我实现这一目标.

有谁知道跟踪此事的正确方法？我已经浏览了文档,但是找不到有关它的任何信息.我也看了Scrapy source code,但似乎无法弄清楚URL列表是如何存储的.

这是我的代码来进一步解释我的问题：

# -*- coding: utf-8 -*-

from scrapy.spider import Spider
from scrapy.selector import Selector

from dirbot.items import Product

from dirbot.database import DatabaseConnection

# Create a database connection object so we can execute queries
connection = DatabaseConnection()

class DmozSpider(Spider):
    name = "dmoz"
    start_urls = []
    item_index = 0

    # Query for all products sold by a merchant
    rows = connection.query("SELECT * FROM products_merchant WHERE 1=1")

    def start_requests(self):
        for row in self.rows:
            yield self.make_requests_from_url(row["product_url"])

    def parse(self, response):
        sel = Selector(response)
        item = Product()
        item['product_id'] = self.rows[self.item_index]['product_id']
        item['merchant_id'] = self.rows[self.item_index]['merchant_id']
        item['price'] = sel.xpath(self.rows[self.item_index]['xpath_rule']).extract()

        self.item_index+=1

        return item

任何指导将不胜感激！

谢谢

解决方法:

您可以使用Request.meta将索引(或数据库中的行ID)与请求一起传递.这是您可以从处理程序中的Response.meta访问的字典.

例如,在构建请求时：

请求(URL,回调= self.some_handler,元= {‘row_id’：row [‘id’]})

像您尝试的那样使用计数器是行不通的,因为您不能保证响应的处理顺序.

内容总结

以上是互联网集市为您收集整理的python-Scrapy-获取正在解析的项目的索引？全部内容，希望文章能够帮你解决python-Scrapy-获取正在解析的项目的索引？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/679026.html

来源：【匿名】

【上一篇】python-列表列表作为列表理解的结果【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-Scrapy-获取正在解析的项目的索引？】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫：scrapy startproject weatherscrapy genspider HQUSpider quanzhou.tianqi.com项目文件结构如图： 3.修改Items.py： 4.修改Spider文件HQUSpider.py：（1）先使用命令：scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器：（2）试验选择器：打开chrome浏览器，查看网页源代码：（3）执行命令查看response结果：（4）编写HQUSpider.py文件：...

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

第一步：创建项目scrapy stratproject [name]如 scrapy startproject choushibaike第二步：进入到项目的文件夹目录创建APPscrapy gensider baike lovehhy.net第三步：配置baike.py文件# -*- coding: utf-8 -*-import scrapyfrom ..items import ChoushibaikeItemclass BaikeSpider(scrapy.Spider): name = ‘baike‘ allowed_domains = [‘lovehhy.net‘] start_urls = [‘http://www.lovehhy.net/joke/Detail/QSBK‘] ...

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

windows下安装scrapy依次执行下列操作：pip install wheelpip install lxmlpip install PyOpenssl安装Microsoft visual c++ build toolspip install twisted　　当此处提示错误时，安装Microsoft Visual C++ Compiler for Python 2.7　　下载地址：https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266pip install pywin32pip install scrapy检测scrapy是否安装成功：在cmd中执行scrapy 原文：https://www.cnblog...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

python-scrapy的编码问题

在学习scrapy中，遇到编码问题还是很头痛的问题的。由于对于语言的对不熟悉，加上不会思考的去解决问题。这样盲目的实践似乎就是在浪费时间。用心思考一下是非常重要的一个过程，在没有办法前进的时候，先学会停下来，不要盲目的去走。静下心是比较理想的解决问题的方式。不要着急，既然是学习。那就要慢慢的学习，不能很急切的盲目茫然的去乱闯。会思考，善于发现问题，然后一步一步的慢慢的解决。不能太过着急。原文：http://www...

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

Scrapy,Python安装，使用！1、下载安装Python2.7.6，因为Scrapy还不支持3.x版本。Latest Python 2 Release - Python 2.7.6，安装时选择当前用户。2、到http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/下载安装pywin32-219.win-amd64-py2.7.exe3、将C:\python27\Scripts;C:\python27;添加到环境变量里。4、http://slproweb.com/products/Win32OpenSSL.html 到这里下载Visual C++ 2008 Redistributables和Win32...

python 3.6.1 安装scrapy踩坑之旅【图】

系统环境：win10 64位系统安装python基础环境配置不做过多的介绍 window环境安装scrapy需要依赖pywin32，下载对应python版本的exe文件执行安装，下载的pywin32版本不对安装会失败下载依赖地址：https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/ 下载依赖安装完成后试下pip install scrapy，很显然失败了发现网友的解决方案：地址：https://blog.csdn.net/aviciie/article/details/80768328安装scrapy还需要的...

首页 / PYTHON / python-Scrapy-获取正在解析的项目的索引？

python-Scrapy-获取正在解析的项目的索引？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-Scrapy-获取正在解析的项目的索引？】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

Python打印scrapy蜘蛛抓取树结构的方法【代码】

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之scrapy框架【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

python-scrapy的编码问题

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

python 3.6.1 安装scrapy踩坑之旅【图】

PYTHON - 相关标签

项目 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程