【Python scrapy实现对网站图片的爬取与保存】教程文章相关的互联网学习教程文章

python-安装Scrapy时出错:未指定路径【代码】

我最近发现,scrapy是一个很好的抓库工具,因此我尝试在我的机器上安装scrapy,但是当我尝试进行pip install scrapy安装时,它安装了一段时间并抛出了此错误.error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools和error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://lan...

python-如何使用硒和scrapy来自动执行该过程?【代码】

我一度知道您需要使用像硒这样的webtoolkit来自动执行抓取. 我将如何能够单击Google Play商店上的下一个按钮,以便仅出于我的大学目的刮取评论!import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from urlparse import urljoin from selenium import webdriver import timeclass Product(scrapy.Item)...

在scrapy框架python的start_urls列表中为url构造正则表达式【代码】

我对Scrapy非常陌生,而且之前我没有使用过正则表达式 以下是我的spider.py代码class ExampleSpider(BaseSpider):name = "test_codeallowed_domains = ["www.example.com"]start_urls = ["http://www.example.com/bookstore/new/1?filter=bookstore","http://www.example.com/bookstore/new/2?filter=bookstore","http://www.example.com/bookstore/new/3?filter=bookstore",]def parse(self, response):hxs = HtmlXPathSelector(re...

python – Scrapy CrawlSpider重试刮【代码】

对于我试图抓取的页面,我有时会在我的响应中找到一个“占位符”页面,其中包含一些自动加载的javascript,直到它获得真实页面.我可以检测到这种情况何时发生,我想重试下载并抓取页面.我在CrawlSpider中使用的逻辑类似于:def parse_page(self, response):url = response.url# Check to make sure the page is loadedif 'var PageIsLoaded = false;' in response.body:self.logger.warning('parse_page encountered an incomplete ren...

如何编写python scrapy代码来提取站点站点地图中的url【代码】

我正在尝试使用此代码获取站点地图中的网址列表.当我运行这个,我看到屏幕上没有结果.任何人都可以告诉我这个问题是什么,或者建议我用一个很好的例子.提前致谢class MySpider(SitemapSpider): name = "xyz" allowed_domains = ["xyz.nl"] sitemap_urls = ["http://www.xyz.nl/sitemap.xml"] def parse(self, response):print response.urlreturn Request(response.url, callback=self.parse_sitemap_url)def parse_sitemap_url(self...

python – 使用scrapy进行CPU密集型解析

http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-items的CONCURRENT_ITEMS部分将其定义为:Maximum number of concurrent items (per response) to process inparallel in the Item Processor (also known as the Item Pipeline).这让我很困惑.这是否意味着发送到管道的项目是并行处理的,即.真的多处理? 假设我的解析涉及大量的lxml查询和xpath’ing.我应该在spider的parse方法本身中执行它们,还是应该发送一个...

python – Scrapy:抓取一个链接列表【代码】

这个问题在某种程度上是我之前提出的this问题的后续问题. 我试图刮一个网页,其中包含第一页上的一些链接.类似于this的东西. 现在,因为我想要抓取页面上的项目的详细信息,我已经提取了他们各自的URL. 我已将这些URL保存在列表中. 如何启动蜘蛛单独刮取页面? 为了更好地理解:[urlA, urlB, urlC, urlD...]这是我抓取的网址列表.现在我想发射一个蜘蛛来单独刮掉链接. 我该怎么做?解决方法:我假设您要关注的网址会导致具有相同或相似...

python – 基于start_urls的Scrapy CrawlSpider动态规则?【代码】

我正在编写一个Scrapy scraper,它使用CrawlSpider来抓取网站,浏览其内部链接,并抓取任何外部链接的内容(链接与不同于原始域的域). 我设法使用2个规则执行此操作,但它们基于正在爬网的网站的域.如果我想在多个网站上运行这个问题,我会遇到一个问题,因为我不知道我目前正在使用哪个“start_url”,因此我无法正确更改规则. 这是我到目前为止提出的,它适用于一个网站,我不知道如何将其应用于网站列表:class HomepagesSpider(CrawlSpid...

python – 为什么Scrapy返回一个iframe?【代码】

我想通过Python-Scrapy抓取this site 我试试这个class Parik(scrapy.Spider):name = "ooshop"allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]def __init__(self, idcrawl=None, proxy=None, *args, **kwargs):super(Parik, self).__init__(*args, **kwargs)self.start_urls = ['http://www.ooshop.com/courses-en-ligne/Home.aspx']def parse(self, response):print response.css('body').extract_first(...

python – 将Splash上​​的Scrapy与HTTP代理相结合时的“500内部服务器错误”【代码】

我正在尝试使用Splash(渲染JavaScript)和Tor通过Privoxy(提供匿名)在Docker容器中抓取Scrapy蜘蛛.这是我正在使用的docker-compose.yml:version: '3'services:scraper:build: ./apk_splash# environment:# - http_proxy=http://tor-privoxy:8118links:- tor-privoxy- splashtor-privoxy:image: rdsubhas/tor-privoxy-alpinesplash:image: scrapinghub/splashScraper具有以下Dockerfile:FROM python:alpine RUN apk --update add l...

在python 3.5中安装scrapy时出错【代码】

参见英文答案 > python spyder conda install failure 2个> Why does “pip install” inside Python raise a SyntaxError? 6个我在Python 3.5中安装Scrapy.我指的是安装指南here. 我已经安装了pip和conda.我尝试了指南中提到的两种方法,但我收到此错误:我已经安装了pip和minoconda:conda install -c scrapinghub scrapy和pip install Scrapy...

python – 使用Scrapy爬网多个域,没有纵横交错【代码】

我已经设置了一个聚合所有出站链接的CrawlSpider(仅通过例如DEPTH_LIMIT = 2从start_urls爬行一定深度).class LinkNetworkSpider(CrawlSpider):name = "network"allowed_domains = ["exampleA.com"]start_urls = ["http://www.exampleA.com"]rules = (Rule(SgmlLinkExtractor(allow=()), callback='parse_item', follow=True),)def parse_start_url(self, response):return self.parse_item(response)def parse_item(self, respons...

python – scrapy错误:exceptions.ValueError:请求url中缺少方案:【代码】

我使用try除了避免错误,但我的终端仍然显示错误,但没有显示日志消息:raise ValueError('Missing scheme in request url: %s' % self._url) exceptions.ValueError: Missing scheme in request url: 当scrapy没有得到image_urls时,如何避免此错误?请指导我,非常感谢.try:item['image_urls'] = ["".join(image.extract()) ] except:log.msg("no image foung!. url={}".format(response.url),level=log.INFO)解决方法:image_url...

python – 设置Scrapy代理中间件以在每个请求上轮换【代码】

这个问题必然有两种形式,因为我不知道解决方案的更好途径. 我正在抓取的网站经常将我踢到重定向的“用户阻止”页面,但频率(按请求/时间)似乎是随机的,并且它们似乎有一个黑名单阻止了我正在使用的许多“开放”代理列表通过Proxymesh.所以… >当Scrapy收到其请求的“重定向”时(例如DEBUG:从(GET http://…/page-544.htm)重定向(302)到(GET http://…/you_got_blocked.aspx) )),是否继续尝试访问page-544.htm,还是继续访问page-5...

python – Scrapy:如何打印请求引用者【代码】

是否可以从解析函数中的响应对象获取请求引用者? 10倍解决方法:HTTP Referer字段由HTTP客户端在请求标头中设置,而不是在响应标头中,因为此标头告诉服务器客户端来自当前页面的位置. 在响应中接收http Referer标头会很奇怪. 但是在谈论scrapy时,在响应的请求字段中有一个对生成响应的Request对象的引用,所以下一个调用结果:response.request.headers.get('Referer', None)如果在发出请求时设置了Referer标头,则可以包含它.