【如何使用scrapyshell来验证xpath选择的结果详细教程】教程文章相关的互联网学习教程文章

python – 使用带有scrapy的loginform【代码】

scrapy框架(https://github.com/scrapy/scrapy)提供了一个库,可在登录需要身份验证的网站时使用,https://github.com/scrapy/loginform.我查看了两个程序的文档但是我似乎无法弄清楚如何让scrapy在运行之前调用loginform.只需登录表单,登录工作正常.谢谢解决方法:loginform只是一个库,与Scrapy完全分离. 您必须编写代码以将其插入所需的蜘蛛中,可能是在回调方法中. 以下是执行此操作的结构示例:import scrapy from loginform impor...

python – 使用Scrapy邮件模块发送电子邮件时连接被拒绝【代码】

我在使用Scrapy进行刮擦后尝试发送电子邮件,但是我收到此错误:2017-02-25 12:44:44 [scrapy.mail] ERROR: Unable to send mail: To=['<my_email>@gmail.com'] Cc=['<my_email>@gmail.com'] Subject="Test" Attachs=0- Connection was refused by other side: 10061: No connection could be made because the target machine actively refused it..这是代码:mailer = scrapy.mail.MailSender.from_settings(scrapy.conf.settings...

当python脚本作为systemd服务运行时,Python Popen不识别scrapy【代码】

我有一个需要启动scrapy可执行文件的python脚本main.py,所以我使用Popen来做(使用subprocess.call()有相同的结果).为了简化事情我只是运行scrapy的帮助论点.import subprocess ... p = subprocess.Popen(['scrapy', '-h'])该脚本需要在安装了scrapy的vitualenv内运行.当我激活virtualenv并将脚本作为python main.py运行时,命令scrapy -h按预期执行. 现在,我需要将此脚本作为systemd服务运行.我已经为脚本创建了systemd单元,如下所示...

python – 如何使用Scrapy获取图像文件【代码】

我刚刚开始使用Scrapy而我正在尝试抓取图像文件.这是我的代码. items.pyfrom scrapy.item import Item, Field class TutorialItem(Item):image_urls = Field(images = Field()passsettings.pyBOT_NAME = 'tutorial' SPIDER_MODULES = ['tutorial.spiders'] NEWSPIDER_MODULE = 'tutorial.spiders'ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline'] IMAGE_STORE = '/Users/rnd/Desktop/Scrapy-0.16.5/tutorial/i...

python – Scrapy:如何调试scrapy丢失的请求【代码】

我有一个scrapy蜘蛛,但它有时不会返回请求. 我发现通过在产生请求之前和获得响应之后添加日志消息. Spider遍历页面并解析每个页面上的项目报废链接. 这是代码的一部分SampleSpider(BaseSpider):....def parse_page(self, response):...request = Request(target_link, callback=self.parse_item_general)request.meta['date_updated'] = date_updatedself.log('parse_item_general_send {url}'.format(url=request.url), level=log...

python – scrapy如何制作我自己的调度程序middelware【代码】

我使用Python 2.7和Scrapy 0.20 我的问题 如何构建自己的调度程序? 我试过了什么 我通过互联网阅读,我发现了这个: >我必须创建自己的python类,并使用SCHEDULER_MIDDLEWARES在设置中分配它>创建该类,这可能是来自scrapy.core.scheduler的内容 但我在互联网上找不到任何例子,也没有任何官方文件解决方法:你可以设置the SCHEDULER setting:SCHEDULER = 'myproject.schedulers.MyScheduler'并从scheduler.py复制代码.

python – 两个关键字之间的scrapy xpath【代码】

我试图在2个关键字之间提取一些文本信息,如下所示:item['duties']=titles.select('.//span/text()[following-sibling::*[text()="Qualifications/Duties" and preceding-sibling::*text()="Entity Information"]').extract()蜘蛛:from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.http import request from scrapy.selector import HtmlXPa...

python – Scrapy:crawlspider在嵌套回调中不生成所有链接【代码】

我写了一个scrapy crawlspider来抓取一个像类别页面>结构的网站.打印页面>列表页面>项目页面.在类别页面上有许多类别的机器,每个机器都有一个包含许多类型的类型页面,每个不同类型都有一个项目列表,最后每台机器都有一个页面,其中包含有关它的信息. 我的蜘蛛有一个规则,从主页到我定义回调parsecatpage的类别页面,这会生成一个项目,抓取类别并为页面上的每个类别产生一个新请求.我使用request.meta传递项目和类别名称,并指定回调是...

如何使用Scrapy / Python从条件下拉字段中获取值?【代码】

这个tutorial帮助我收集了网站上的第一个下拉列表条目.但是我无法使用Scrapy获取第二个条件/依赖下拉框的数据. 假设以下步骤是可行的,步骤2如何工作?这些价值从未出现过…… >获取第一个下拉框的列表条目>选择第一个下拉框的第一个值.>获取所有相关的下拉值.>迭代第一个下拉列表… 我认为下面的代码需要调整,因为代码是提交表单:for i in range(len(brandCategoryList)):# Generate new request for each brand category's pagey...

Scrapy Python Craigslist Scraper【代码】

我正在尝试使用Scrapy刮取Craigslist分类来提取待售物品. 我能够提取日期,帖子标题和发布网址,但我无法提取价格. 由于某种原因,当前代码提取所有价格,但当我在价格跨度之前删除//时,价格字段返回为空. 有人可以查看下面的代码并帮助我吗?from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelectorfrom craigslist_sample.items import CraigslistSampleItemclass MySpider(BaseSpider):name = "craig"a...

scrapy需要python 2.7,但我已经拥有了【代码】

首先,我正在研究osx 10.6.8 我使用命令安装了scrapy:sudo easy_install Scrapy一切似乎都很好.但是当我尝试使用创建一个新项目时scrapy startproject tutorial我才得到Scrapy 0.22.2 requires Python 2.7我试过this解决方案,但我得到了同样的问题.我怎么能解决这个问题? 编辑:我想我已经理解了这个问题:易于安装引用旧版本的python(2.6),它在我的系统下/Library/Python/2.6(可能它是预安装的),所以我安装了scrapy for python 2...

python – 重定向后的Scrapy回调【代码】

我有一个非常基本的scrapy蜘蛛,它从文件中抓取url然后下载它们.唯一的问题是,其中一些被重定向到同一域内的略微修改的URL.我想使用response.meta在我的回调函数中获取它们,并且它适用于普通的URL,但是然后url被重定向回调似乎没有被调用.我该如何解决?这是我的代码.from scrapy.contrib.spiders import CrawlSpider from scrapy import log from scrapy import Request class DmozSpider(CrawlSpider):name = "dmoz"handle_httpst...

python – Scrapy Start_request解析【代码】

我正在编写一个scrapy脚本来搜索和搜索网站的结果.我需要从网站搜索项目并从搜索结果中解析每个网址.我从Scrapy的start_requests开始,我将传递搜索查询并重定向到另一个函数解析,该解析将从搜索结果中检索URL.最后我调用另一个函数parse_item来解析结果.我能够提取所有搜索结果url,但我无法解析结果(parse_item不起作用).这是代码:# -*- coding: utf-8 -*-from scrapy.http.request import Request from scrapy.spider import Bas...

python – Scrapy擦除数据但没有输出到文件【代码】

尽管成功地能够在scrapy shell中执行大多数行,但我一直在获取空白的json文件.当我运行命令scrapy爬行课程时,我的课程机器人是:from scrapy.spiders import CrawlSpider from scrapy.linkextractors import LinkExtractor from tutorial.items import CoursesItem from bs4 import BeautifulSoup import scrapyclass CoursesSpider(CrawlSpider):name = 'courses'allowed_domains = ['guide.berkeley.edu']start_urls = ['http://g...

python – Scrapy – 输出到多个JSON文件【代码】

我是Scrapy的新手.我正在研究使用它来抓取整个网站的链接,在其中我将项目输出到多个JSON文件中.然后,我可以将它们上传到Amazon Cloud Search进行索引.是否可以将项目拆分为多个文件,而不是最终只有一个巨大的文件?根据我的阅读,项目导出器只能输出每个蜘蛛一个文件.但我只使用一个CrawlSpider来完成这项任务.如果我可以设置每个文件中包含的项目数限制,如500或1000,那将是很好的. 这是我到目前为止设置的代码(基于本教程中使用的D...