首页 / 爬虫 / 十九、通过Scrapy提供的API在程序中启动爬虫

十九、通过Scrapy提供的API在程序中启动爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了十九、通过Scrapy提供的API在程序中启动爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2087字，纯文字阅读大概需要3分钟。

内容图文

Scrapy在Twisted异步网络库上构建，所以如果程序必须在Twisted reactor里运行

1、方式一：使用CrawlerProcess类

　　CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设置Twisted reactor自动关闭。

　　可以在CrawlerProcess初始化时传入设置的参数，使用crawl方式运行指定的爬虫类。

　　```

　　if __name__=="__main__":

　　　　process = CrawlerProcess(

　　　　　　{

　　　　　　　　"USER_AGENT":"Mozilla/5.0 ...."，

　　　　　　}

　　　　)

　　　　process.crawl(爬虫类）

　　　　process.start()

　　```

　　也可以在CrawlerProcess初始化时传入项目的settings信息，在crawl方法中传入爬虫的名字。

　　```

　　if __name__=="__main__":

　　　　process = CrawlerProcess(

　　　　　　project_settings()

　　　　)

　　　　process.crawl(爬虫名）

　　　　process.start()

　　```

2、方式二：使用CrawlerRunner

　　使用CrawlerRunner时，在spider运行结束后，必须自行关闭Twisted reactor，需要在CrawlerRunner.crawl所返回的对象中添加回调函数。

　　```

　　if __name__=="__main__":

　　　　configure_logging({"LOG_FORMAT":"%(levelname)s:%(message)s"})　　# 使用configure_logging配置了日志信息的打印格式

　　　　runner = CrawlerRunner()

　　　　d = runner.crawl(爬虫类）　　# 通过CrawlerRunner的crawl方法添加爬虫

　　　　d.addBoth(lambda _:reactor.stop())　　# 通过addBoth添加关闭Twisted reactor的回调函数

　　　　reactor.run()

　　```

3、在一个进程中启动多个爬虫

　　1、CrawlerProcess方式实现

　　　　```

　　　　import scrapy

　　　　from scrapy.crawler import CrawlerProcess

　　　　class Myspider_1(scrapy.Spider):

　　　　　　...

　　　　class Myspider_2(scrapy.Spider):

　　　　　　...

　　　　process = CrawlerProcess()

　　　　process.crawl(Myspider_1)

　　　　process.crawl(Myspider_2)

　　　　process.start()

　　　　```

　　2、CrawlerRunner方式实现

　　　　1、第一种方式

　　　　　　```

　　　　　　import scrapy

　　　　　　from twisted.internet import reactor

　　　　　　from scrapy.crawler import CrawlerRunner

　　　　　　from scrapy.utils.log import configure_logging

　　　　　　class Myspider_1(scrapy.Spider):

　　　　　　　　...

　　　　　　class Myspider_2(scrapy.Spider):

　　　　　　　　...

　　　　　　configure_logging()

　　　　　　runner = CralwerRunner()

　　　　　　runner.crawl(Myspider_1)

　　　　　　runner.crawl(Myspider_2)

　　　　　　d = runner.join()

　　　　　　d.addBoth(lambda _: reactor.stop())

　　　　　　reactor.run()

　　　　　　```

　　　　2、第二种方式

　　　　　　```

　　　　　　from twisted.internet import reactor,defer

　　　　　　from scrapy.crawler import CrawlerRunner

　　　　　　from scrapy.utils.log import configure_logging

　　　　　　class Myspider_1(scrapy.Spider):

　　　　　　　　...

　　　　　　class Myspider_2(scrapy.Spider):

　　　　　　　　...

　　　　　　configure_logging()

　　　　　　runner = CrawlerRunner()

　　　　　　@defer.inlineCallbacks

　　　　　　def crawl():

　　　　　　　　yield runner.crawl(Myspider_1)

　　　　　　　　yield runner.crawl(Myspider_2)

　　　　　　　　reactor.stop()

　　　　　　crawl()

　　　　　　reactor.run()

　　　　　　```

原文：https://www.cnblogs.com/nuochengze/p/13151485.html

内容总结

以上是互联网集市为您收集整理的十九、通过Scrapy提供的API在程序中启动爬虫全部内容，希望文章能够帮你解决十九、通过Scrapy提供的API在程序中启动爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1123772.html

来源：【匿名】

【上一篇】pycharm下打开、执行并调试scrapy爬虫程序【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【十九、通过Scrapy提供的API在程序中启动爬虫】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Scrapy爬虫笔记【2-基本流程】【代码】

1.一个项目的基本流程创建新项目scrapy startproject <name>会自动生成目录：熟悉一下目录结构：lawson ├── lawson │ ├── __init__.py │ ├── items.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ └── __init__.py └── scrapy.cfg items.py 定义抓取结果中单个项所需要包含的所有内容，比如便利店的地址、分店名称等。【目标】pipelines.py 定义如何对抓取到的内容进行再...

爬虫框架Scrapy之详解【图】

Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted[‘tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scrapy架构图(绿...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

scrapy爬虫案例：问政平台【代码】【图】

问政平台http://wz.sun0769.com/index.php/question/questionType?type=4爬取投诉帖子的编号、帖子的url、帖子的标题，和帖子里的内容。items.pyimport scrapyclass DongguanItem(scrapy.Item):# 每个帖子的标题title = scrapy.Field()# 每个帖子的编号number = scrapy.Field()# 每个帖子的文字内容content = scrapy.Field()# 每个帖子的urlurl = scrapy.Field()spiders/sunwz.py# -*- coding: utf-8 -*-import scrapy from scrapy...

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

scrapy安装配置不在本文提及，1.在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：scrapy.cfg ：项目的配置文件mySpider/ ：项目的Python模块，将会从这里引用代码mySpider/items.py ：项目的目标文件mySpider/pipelines.py ：项目的...

在Pycharm中运行Scrapy爬虫项目的基本操作【图】

目标在Win7上建立一个Scrapy爬虫项目，以及对其进行基本操作。运行环境：电脑上已经安装了python(环境变量path已经设置好)，以及scrapy模块，IDE为Pycharm 。操作如下：　　一、建立Scrapy模板。进入自己的工作目录，shift + 鼠标右键进入命令行模式，在命令行模式下，输入scrapy startproject 项目名 ,如下：看到以上的代码说明项目已经在工作目录中建好了。　　二、在Pycharm中scrapy的导入。在Pycharm中打开工作目录中的Test...

scrapy写爬虫是出现no module named win32api错误【图】

windows下利用scrapy（python2.7）写爬虫，运行 scrapy crawl dmoz 命令时提示：exceptions.ImportError: No module named win32api 插个话题，这里还需要注意的是你需要到你所创建的爬虫项目目录下运行以上命令，比如你创建了 scrapy startproject tutorial 项目，你需要到tutorial目录下运行以上命令。另外一点就是需要注意一下爬虫的名字如：dmoz，它是和以下这个名字对应的解决办法：安装pywin32 地址：https://sourceforge...

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来【代码】【图】

想学爬虫主要是因为算法和数据是密切相关的，有数据之后可以玩更多有意思的事情，数据量大可以挖掘挖掘到更多的信息。之前只会通过python中的request库来下载网页内容，再用BeautifulSoup、re正则工具来解析；后来了解到Scrapy爬虫框架，现在入门先写个小小的爬虫项目，这里做个简单的总结和记录。官方教程：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html（包括安装指南）Github：https://github.com/scrapy ...

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息先完成单机版的爬虫，然后将单机版爬虫转为分布式爬虫爬取思路1. 进入 https://www.fang.com/SoufunFamily.htm 页面，解析所有的省份和城市，获取到城市首页链接 2. 通过分析，每个城市的新房都是在首页链接上添加newhouse和house/s/字符串，二手房都死在首页链接上添加esf字段以上海为例：首页：https://sh.fang.com/ 新房：https://sh.newhouse....

scrapy爬虫天猫笔记本电脑销量前60的商品【代码】

# 抓取内容：商品名称，商品价格，商品链接，店铺名称，店铺链接# 爬取的时候之前返回了多次302，301 但是html网页还是被爬取下来了抓取的首页：start_urls = [‘https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.4.4b3df937tMXU1S&cat=50024399&sort=d&style=g&active=1&industryCatId=50024399&theme=663‘]第一步：item.py编写　　相信刚开始的准备工作不需要讲了（cmd---scrapy startproject tianmao----...

爬虫——Scrapy框架案例二：阳光问政平台【代码】

阳光热线问政平台URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page=爬取字段：帖子的编号、投诉类型、帖子的标题、帖子的URL地址、部门、状态、网友、时间。1.items.py# -*- coding: utf-8 -*-# Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass SunwzspiderItem(scrapy.Item):# define the fields ...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫：scrapy startproject weatherscrapy genspider HQUSpider quanzhou.tianqi.com项目文件结构如图： 3.修改Items.py： 4.修改Spider文件HQUSpider.py：（1）先使用命令：scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器：（2）试验选择器：打开chrome浏览器，查看网页源代码：（3）执行命令查看response结果：（4）编写HQUSpider.py文件：...

SCRAPY - 相关标签

scrapy框架

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 十九、通过Scrapy提供的API在程序中启动爬虫

十九、通过Scrapy提供的API在程序中启动爬虫

内容导读

内容图文

1、方式一：使用CrawlerProcess类

2、方式二：使用CrawlerRunner

3、在一个进程中启动多个爬虫

1、CrawlerProcess方式实现

2、CrawlerRunner方式实现

内容总结

内容备注

内容手机端

【十九、通过Scrapy提供的API在程序中启动爬虫】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

Scrapy爬虫笔记【2-基本流程】【代码】

爬虫框架Scrapy之详解【图】

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

scrapy爬虫案例：问政平台【代码】【图】

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

在Pycharm中运行Scrapy爬虫项目的基本操作【图】

scrapy写爬虫是出现no module named win32api错误【图】

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来【代码】【图】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

scrapy爬虫天猫笔记本电脑销量前60的商品【代码】

爬虫——Scrapy框架案例二：阳光问政平台【代码】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

SCRAPY - 相关标签

启动 - 相关标签

程序 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程