python – Scrapy:抓取一个链接列表
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – Scrapy:抓取一个链接列表,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1195字,纯文字阅读大概需要2分钟。
内容图文
这个问题在某种程度上是我之前提出的this问题的后续问题.
我试图刮一个网页,其中包含第一页上的一些链接.类似于this的东西.
现在,因为我想要抓取页面上的项目的详细信息,我已经提取了他们各自的URL.
我已将这些URL保存在列表中.
如何启动蜘蛛单独刮取页面?
为了更好地理解:
[urlA, urlB, urlC, urlD...]
这是我抓取的网址列表.现在我想发射一个蜘蛛来单独刮掉链接.
我该怎么做?
解决方法:
我假设您要关注的网址会导致具有相同或相似结构的网页.如果是这样的话,你应该这样做:
from scrapy.contrib.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request
class YourCrawler(CrawlSpider):
name = 'yourCrawler'
allowed_domains = 'domain.com'
start_urls = ["htttp://www.domain.com/example/url"]
def parse(self, response):
#parse any elements you need from the start_urls and, optionally, store them as Items.
# See http://doc.scrapy.org/en/latest/topics/items.html
s = Selector(response)
urls = s.xpath('//div[@id="example"]//a/@href').extract()
for url in urls:
yield Request(url, callback=self.parse_following_urls, dont_filter=True)
def parse_following_urls(self, response):
#Parsing rules go here
否则,如果您想要关注的URL指向具有不同结构的页面,那么您可以为它们定义特定的方法(类似于parse1,parse2,parse3 ……).
内容总结
以上是互联网集市为您收集整理的python – Scrapy:抓取一个链接列表全部内容,希望文章能够帮你解决python – Scrapy:抓取一个链接列表所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。