首页 / PYTHON / python – 带Splash的CrawlSpider

python – 带Splash的CrawlSpider

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 带Splash的CrawlSpider，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2901字，纯文字阅读大概需要5分钟。

内容图文

我的蜘蛛有些问题.我使用带scrapy的splash来获取由JavaScript生成的“下一页”的链接.从第一页下载信息后,我想从以下页面下载信息,但LinkExtractor功能无法正常工作.但看起来start_request函数不起作用.这是代码：

class ReutersBusinessSpider(CrawlSpider):
   name = 'reuters_business'
   allowed_domains = ["reuters.com"]
   start_urls = (
       'http://reuters.com/news/archive/businessNews?view=page&page=1',
   )

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse, meta={
                'splash': {
                    'endpoint': 'render.html',
                    'args': {'wait': 0.5}
                }
            })
    def use_splash(self, request):
        request.meta['splash'] = {
                'endpoint':'render.html',
                'args':{
                    'wait':0.5,
                    }
                }
        return request

    def process_value(value):
        m = re.search(r'(\?view=page&page=[0-9]&pageSize=10)', value)
        if m:
            return urlparse.urljoin('http://reuters.com/news/archive/businessNews',m.group(1))


    rules = (
        Rule(LinkExtractor(restrict_xpaths='//*[@class="pageNext"]',process_value='process_value'),process_request='use_splash', follow=False),
        Rule(LinkExtractor(restrict_xpaths='//h2/*[contains(@href,"article")]',process_value='process_value'),callback='parse_item'),
    )



    def parse_item(self, response):
        l = ItemLoader(item=PajaczekItem(), response=response)

        l.add_xpath('articlesection','//span[@class="article-section"]/text()', MapCompose(unicode.strip), Join())
        l.add_xpath('date','//span[@class="timestamp"]/text()', MapCompose(parse))
        l.add_value('url',response.url)
        l.add_xpath('articleheadline','//h1[@class="article-headline"]/text()', MapCompose(unicode.title))
        l.add_xpath('articlelocation','//span[@class="location"]/text()')
        l.add_xpath('articletext','//span[@id="articleText"]//p//text()', MapCompose(unicode.strip), Join())

        return l.load_item()

日志：

2016-02-12 08:20:29 [scrapy] INFO: Spider opened 2016-02-12 08:20:29 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-02-12 08:20:29 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-02-12 08:20:38 [scrapy] DEBUG: Crawled (200) <POST localhost:8050/render.html>; (referer: None)
2016-02-12 08:20:38 [scrapy] DEBUG: Filtered offsite request to 'localhost': <GET http://localhost:8050/render.html?page=2&pageSize=10&view=page%3E;
2016-02-12 08:20:38 [scrapy] INFO: Closing spider (finished)

哪里出错？感谢帮助.

解决方法:

快速浏览一下,您不是使用splash调用start_request属性…例如,您应该使用SplashRequest.

def start_requests(self):
    for url in self.start_urls:
        yield SplahRequest(url, self.parse, meta={
            'splash': {
                'endpoint': 'render.html',
                'args': {'wait': 0.5}
            }
        })

给你的Splash设置合适,就是在设置中你已经启用了必要的中间位置并且指向正确的/ url也使它们能够正常触发和HTTP缓存…不,我没有运行你的代码应该是好的现在去

编辑：顺便说一下…它的下一页不是js生成的

所以…除非你使用splash有任何其他原因,我认为没有理由在文章请求的初始解析中使用简单的for循环,如…

for next in response.css("a.control-nav-next::attr(href)").extract():
    yield scrapy.Request(response.urljoin(next), callback=self.parse...

内容总结

以上是互联网集市为您收集整理的python – 带Splash的CrawlSpider全部内容，希望文章能够帮你解决python – 带Splash的CrawlSpider所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/772490.html

来源：【匿名】

【上一篇】python – 有条件的numpy累积和【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 带Splash的CrawlSpider】教程文章相关的互联网学习教程文章

基于python的Splash基本使用和负载均衡配置【代码】【图】

1. 工具语言：python3.7,Lua 编译器：pycharm 包管理工具：pip 工具：Scrapy-Splash 应用容器引擎：docker 2. 功能介绍利用Splash，我们可以实现如下功能：异步方式处理多个网页渲染过程；获取渲染后的页面的源代码或截图；通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；可执行特定的JavaScript脚本；可通过Lua脚本来控制页面渲染过程；获取渲染的详细过程并通过HAR（HTTP Archive）格式呈现。 3. 项目实战首先...

python爬虫学习笔记(二十七)-Splash的使用【代码】【图】

1. Splash介绍Splash是一个JavaScript渲染服务，是一个带有HTTP API的轻量级浏览器，同时它对接了Python中的Twisted和QT库。利用它，我们同样可以实现动态渲染页面的抓取2. 安装 2.1 安装docker 2.2 拉取镜像 docker pull scrapinghub/splash2.3 用docker运行scrapinghub/splash docker run -p 8050:8050 scrapinghub/splash2.4 查看效果我们在8050端口上运行了Splash服务，打开http://192.168.99.100:8050/即可看到其Web页面3 Spl...

小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 Python 爬虫（5）：前置准备（四）数据库基础小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装小白学 Python 爬虫（7）：HTTP 基础小白学 Python 爬虫（8）：网页基础小...

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门【图】

python – 将Splash上的Scrapy与HTTP代理相结合时的“500内部服务器错误”【代码】

我正在尝试使用Splash(渲染JavaScript)和Tor通过Privoxy(提供匿名)在Docker容器中抓取Scrapy蜘蛛.这是我正在使用的docker-compose.yml：version: '3'services:scraper:build: ./apk_splash# environment:# - http_proxy=http://tor-privoxy:8118links:- tor-privoxy- splashtor-privoxy:image: rdsubhas/tor-privoxy-alpinesplash:image: scrapinghub/splashScraper具有以下Dockerfile：FROM python:alpine RUN apk --update add l...

【Python】Python3网络爬虫实战-38、动态渲染页面抓取:Splash的使用【代码】【图】

Splash 是一个 JavaScript 渲染服务，是一个带有 HTTP API 的轻量级浏览器，同时它对接了 Python 中的 Twisted和 QT 库，利用它我们同样可以实现动态渲染页面的抓取。 1. 功能介绍利用 Splash 我们可以实现如下功能：异步方式处理多个网页渲染过程获取渲染后的页面的源代码或截图通过关闭图片渲染或者使用 Adblock 规则来加快页面渲染速度可执行特定的 JavaScript 脚本可通过 Lua 脚本来控制页面渲染过程获取渲染的详细过程并...