首页 / PYTHON / python – 使用Scrapy爬网多个域,没有纵横交错

python – 使用Scrapy爬网多个域,没有纵横交错

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用Scrapy爬网多个域,没有纵横交错，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1874字，纯文字阅读大概需要3分钟。

内容图文

我已经设置了一个聚合所有出站链接的CrawlSpider(仅通过例如DEPTH_LIMIT = 2从start_urls爬行一定深度).

class LinkNetworkSpider(CrawlSpider):

    name = "network"
    allowed_domains = ["exampleA.com"]

    start_urls = ["http://www.exampleA.com"]

    rules = (Rule(SgmlLinkExtractor(allow=()), callback='parse_item', follow=True),)

    def parse_start_url(self, response):
        return self.parse_item(response)

    def parse_item(self, response):

        hxs = HtmlXPathSelector(response)
        links = hxs.select('//a/@href').extract()

        outgoing_links = []

        for link in links:
            if ("http://" in link):
                base_url = urlparse(link).hostname
                base_url = base_url.split(':')[0]  # drop ports
                base_url = '.'.join(base_url.split('.')[-2:])  # remove subdomains
                url_hit = sum(1 for i in self.allowed_domains if base_url not in i)
                if url_hit != 0:
                    outgoing_links.append(link)

        if outgoing_links:
            item = LinkNetworkItem()
            item['internal_site'] = response.url
            item['out_links'] = outgoing_links
            return [item]
        else:
            return None

我想将其扩展到多个域(exampleA.com,exampleB.com,exampleC.com ……).起初,我以为我可以将我的列表添加到start_urls以及allowed_domains,但在我看来,这会导致以下问题：

>是否会为每个start_urls / allowed_domain应用设置DEPTH_LIMIT？
>更重要的是：如果站点已连接,蜘蛛会从exampleA.com跳到exampleB.com,因为两者都在allowed_domains中？我需要避免这种纵横交错,因为我后来想要计算每个网站的出站链接,以获取有关网站之间关系的信息！

那么如何在不遇到纵横交错的问题的情况下扩展更多的蜘蛛并使用每个网站的设置？

附加图片显示了我想要实现的内容：

解决方法:

我现在已经没有规则地实现了它.我将meta属性附加到每个start_url,然后只检查自己链接是否属于原始域并相应地发送新请求.

因此,覆盖start_requests：

def start_requests(self):
    return [Request(url, meta={'domain': domain}, callback=self.parse_item) for url, domain in zip(self.start_urls, self.start_domains)]

在随后的解析方法中,我们获取元属性domain = response.request.meta [‘domain’],将域与提取的链接进行比较,并自己发送新的请求.

内容总结

以上是互联网集市为您收集整理的python – 使用Scrapy爬网多个域,没有纵横交错全部内容，希望文章能够帮你解决python – 使用Scrapy爬网多个域,没有纵横交错所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/698285.html

来源：【匿名】

【上一篇】部署Python程序的问题(与py2exe一起打包)【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 使用Scrapy爬网多个域,没有纵横交错】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

python 2.7 的Scrapy安装介绍【代码】

一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.官方主页： http://www.scrapy.org/ 二、安装Python2.7官方主页：http://www.python.org/下载地址：http://www.python.org/ftp/python/2.7.3/python-2.7.3....

【第三天】Python学习：初学scrapy框架【代码】【图】

------------恢复内容开始------------ 大家好，我这段时间有点忙，没有时间更新博客，这几天在学习这个scrapy的框架，学习这个新的框架，我主要是分两部分去学习，第一步通过百度搜索Scrapy框架的入门知识，第二步通过github去搜索scrapy项目，看看别人对于需求如何去做的。　　第一步：掌握scrapy框架的运行原理这张是原理图，是我在网上抓取下来的，谈谈我的理解。爬虫抓取网页前提是跟我们平常访问网页...

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

一、CrawlSpider根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性.除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了.爬虫一般来说分为垂直爬取和水平爬取, 这里拿猫眼电影TOP100 举例. 垂直爬取就是从目录进入到内容详情后爬取, 即从当前页进入某一影片的详情页面; 水平爬取就是从这一页目录翻...

python ----Linux上安装scrapy【代码】

在安装scrapy之前首先得确保你已经安装了python 以及pip1，安装scrapypip install scrapy如果报错：Could not find a version that satisfies the requirement Twisted>=13.1.0 (from Scrapy) (from versions: )No matching distribution found for Twisted>=13.1.0 (from Scrapy)原因是没有安装Twisted2，安装Twisted。wget https://pypi.python.org/packages/source/T/Twisted/Twisted-15.2.1.tar.bz2 --no-check-certificate ta...

scrapy主动退出爬虫的代码片段(python3)【代码】

问题：在运行scrapy的过程中，如果想主动退出该怎么做？背景：比如说我只要爬取当日的新闻，那么在遍历的时候，如果出现了超过1条不是当日的新闻，那么就不爬取了，就主动退出爬虫，这个时候该怎么做呢？IDE：pycharm版本：python3框架：scrapy系统：windows10代码如下：# -*- coding: utf-8 -*-import scrapy from torrentSpider.items.NavigationItem import NavigationItem from torrentSpider.items.TorrentItem import Torren...

自学Python十二战斗吧Scrapy！【代码】【图】

初窥Scrapy　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。还是先推荐几个学习的教程：Scrapy 0.25文档 Scrapy快速入门教程这些教程里面有关于Scrapy的安装，创建项目，爬取实例等等，如果一个全新的东西扔给你首先要看文档，初看文档我也是蒙蒙的，后来一层一层的去摸索才大概懂了个皮毛。我们就试着将之前的爬虫福利改写成用Scr...

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 使用Scrapy爬网多个域,没有纵横交错

python – 使用Scrapy爬网多个域,没有纵横交错

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用Scrapy爬网多个域,没有纵横交错】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

python 2.7 的Scrapy安装介绍【代码】

【第三天】Python学习：初学scrapy框架【代码】【图】

Python爬虫框架Scrapy安装使用步骤

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

python ----Linux上安装scrapy【代码】

scrapy主动退出爬虫的代码片段(python3)【代码】

自学Python十二战斗吧Scrapy！【代码】【图】

python爬虫scrapy之rules的基本使用【代码】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

Python打印scrapy蜘蛛抓取树结构的方法【代码】

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之scrapy框架【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程