首页 / PYTHON / python – Scrapy：抓取一个链接列表

python – Scrapy：抓取一个链接列表

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Scrapy：抓取一个链接列表，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1195字，纯文字阅读大概需要2分钟。

内容图文

这个问题在某种程度上是我之前提出的this问题的后续问题.

我试图刮一个网页,其中包含第一页上的一些链接.类似于this的东西.

现在,因为我想要抓取页面上的项目的详细信息,我已经提取了他们各自的URL.

我已将这些URL保存在列表中.

如何启动蜘蛛单独刮取页面？

为了更好地理解：

[urlA, urlB, urlC, urlD...]

这是我抓取的网址列表.现在我想发射一个蜘蛛来单独刮掉链接.

我该怎么做？

解决方法:

我假设您要关注的网址会导致具有相同或相似结构的网页.如果是这样的话,你应该这样做：

from scrapy.contrib.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request

class YourCrawler(CrawlSpider):

   name = 'yourCrawler'
   allowed_domains = 'domain.com'
   start_urls = ["htttp://www.domain.com/example/url"]


   def parse(self, response):
      #parse any elements you need from the start_urls and, optionally, store them as Items.
      # See http://doc.scrapy.org/en/latest/topics/items.html

      s = Selector(response)
      urls = s.xpath('//div[@id="example"]//a/@href').extract()
      for url in urls:
         yield Request(url, callback=self.parse_following_urls, dont_filter=True)


   def parse_following_urls(self, response):
       #Parsing rules go here

否则,如果您想要关注的URL指向具有不同结构的页面,那么您可以为它们定义特定的方法(类似于parse1,parse2,parse3 ……).

内容总结

以上是互联网集市为您收集整理的python – Scrapy：抓取一个链接列表全部内容，希望文章能够帮你解决python – Scrapy：抓取一个链接列表所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/696664.html

来源：【匿名】

【上一篇】python – 两个数组的高效匹配(如何使用KDTree)【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Scrapy：抓取一个链接列表】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

python 2.7 的Scrapy安装介绍【代码】

一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.官方主页： http://www.scrapy.org/ 二、安装Python2.7官方主页：http://www.python.org/下载地址：http://www.python.org/ftp/python/2.7.3/python-2.7.3....

【第三天】Python学习：初学scrapy框架【代码】【图】

------------恢复内容开始------------ 大家好，我这段时间有点忙，没有时间更新博客，这几天在学习这个scrapy的框架，学习这个新的框架，我主要是分两部分去学习，第一步通过百度搜索Scrapy框架的入门知识，第二步通过github去搜索scrapy项目，看看别人对于需求如何去做的。　　第一步：掌握scrapy框架的运行原理这张是原理图，是我在网上抓取下来的，谈谈我的理解。爬虫抓取网页前提是跟我们平常访问网页...

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

一、CrawlSpider根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性.除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了.爬虫一般来说分为垂直爬取和水平爬取, 这里拿猫眼电影TOP100 举例. 垂直爬取就是从目录进入到内容详情后爬取, 即从当前页进入某一影片的详情页面; 水平爬取就是从这一页目录翻...

python ----Linux上安装scrapy【代码】

在安装scrapy之前首先得确保你已经安装了python 以及pip1，安装scrapypip install scrapy如果报错：Could not find a version that satisfies the requirement Twisted>=13.1.0 (from Scrapy) (from versions: )No matching distribution found for Twisted>=13.1.0 (from Scrapy)原因是没有安装Twisted2，安装Twisted。wget https://pypi.python.org/packages/source/T/Twisted/Twisted-15.2.1.tar.bz2 --no-check-certificate ta...

scrapy主动退出爬虫的代码片段(python3)【代码】

问题：在运行scrapy的过程中，如果想主动退出该怎么做？背景：比如说我只要爬取当日的新闻，那么在遍历的时候，如果出现了超过1条不是当日的新闻，那么就不爬取了，就主动退出爬虫，这个时候该怎么做呢？IDE：pycharm版本：python3框架：scrapy系统：windows10代码如下：# -*- coding: utf-8 -*-import scrapy from torrentSpider.items.NavigationItem import NavigationItem from torrentSpider.items.TorrentItem import Torren...

自学Python十二战斗吧Scrapy！【代码】【图】

初窥Scrapy　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。还是先推荐几个学习的教程：Scrapy 0.25文档 Scrapy快速入门教程这些教程里面有关于Scrapy的安装，创建项目，爬取实例等等，如果一个全新的东西扔给你首先要看文档，初看文档我也是蒙蒙的，后来一层一层的去摸索才大概懂了个皮毛。我们就试着将之前的爬虫福利改写成用Scr...

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

首页 / PYTHON / python – Scrapy：抓取一个链接列表

python – Scrapy：抓取一个链接列表

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Scrapy：抓取一个链接列表】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

python 2.7 的Scrapy安装介绍【代码】

【第三天】Python学习：初学scrapy框架【代码】【图】

Python爬虫框架Scrapy安装使用步骤

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

python ----Linux上安装scrapy【代码】

scrapy主动退出爬虫的代码片段(python3)【代码】

自学Python十二战斗吧Scrapy！【代码】【图】

python爬虫scrapy之rules的基本使用【代码】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

Python打印scrapy蜘蛛抓取树结构的方法【代码】

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之scrapy框架【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

PYTHON - 相关标签

链接 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程