首页 / 爬虫 / 清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4338字，纯文字阅读大概需要7分钟。

内容图文

Python 最流行的爬虫框架是 Scrapy，它主要用于爬取网站结构性数据

今天推荐一款更加简单、轻量级，且功能强大的爬虫框架

介绍及安装

和 Scrapy 类似，feapder 支持轻量级爬虫、分布式爬虫、批次爬虫、爬虫报警机制等功能

内置的 3 种爬虫如下：

AirSpider

轻量级爬虫，适合简单场景、数据量少的爬虫
Spider

分布式爬虫，基于 Redis，适用于海量数据，并且支持断点续爬、自动数据入库等功能
BatchSpider

分布式批次爬虫，主要用于需要周期性采集的爬虫

在实战之前，我们在虚拟环境下安装对应的依赖库

# 安装依赖 pip3 install feapder

我们以最简单的 AirSpider 来爬取一些简单的数据

详细实现步骤如下（ 5 步）

创建爬虫项目

首先，我们使用「 feapder create -p 」命令创建一个爬虫项目

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder - 文章图片

创建爬虫 AirSpider

命令行进入到 spiders 文件夹目录下，使用「 feapder create -s 」命令创建一个爬虫清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder - 文章图片

其中

1 为默认，表示创建一个轻量级爬虫 AirSpider
2 代表创建一个分布式爬虫 Spider
3 代表创建一个分布式批次爬虫 BatchSpider

配置数据库、创建数据表、创建映射 Item

以 Mysql 为例，首先我们在数据库中创建一张数据表

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder - 文章图片

然后，打开项目根目录下的 settings.py 文件，配置数据库连接信息

#?settings.py

MYSQL_IP?=?"localhost"
MYSQL_PORT?=?3306
MYSQL_DB?=?"xag"
MYSQL_USER_NAME?=?"root"
MYSQL_USER_PASS?=?"root"

最后，创建映射 Item（可选）

进入到 items 文件夹，使用「 feapder create -i 」命令创建一个文件映射到数据库

PS：由于 AirSpider 不支持数据自动入库，所以这步不是必须

编写爬虫及数据解析

第一步，首先使「 MysqlDB 」初始化数据库

from?feapder.db.mysqldb?import?MysqlDB

class?TophubSpider(feapder.AirSpider):

????def?__init__(self,?*args,?**kwargs):
????????super().__init__(*args,?**kwargs)
????????self.db?=?MysqlDB()

第二步，在 start_requests 方法中，指定爬取主链接地址，使用关键字「download_midware 」配置随机 UA

import?feapder
from?fake_useragent?import?UserAgent

def?start_requests(self):
????yield?feapder.Request("https://tophub.today/",?download_midware=self.download_midware)

def?download_midware(self,?request):
????#?随机UA
????#?依赖：pip3 install fake_useragent
????ua?=?UserAgent().random
????request.headers?=?{'User-Agent':?ua}
????return?request

第三步，爬取首页标题、链接地址

使用 feapder 内置方法 xpath 去解析数据即可

def?parse(self,?request,?response):
????#?print(response.text)
????card_elements?=?response.xpath('//div[@class="cc-cd"]')

????#?过滤出对应的卡片元素【什么值得买】
????buy_good_element?=?[card_element?for?card_element?in?card_elements?if
????????????????????????card_element.xpath('.//div[@class="cc-cd-is"]//span/text()').extract_first()?==?'什么值得买'][0]

????#?获取内部文章标题及地址
????a_elements?=?buy_good_element.xpath('.//div[@class="cc-cd-cb?nano"]//a')

????for?a_element?in?a_elements:
????????#?标题和链接
????????title?=?a_element.xpath('.//span[@class="t"]/text()').extract_first()
????????href?=?a_element.xpath('.//@href').extract_first()

????????#?再次下发新任务，并带上文章标题
????????yield?feapder.Request(href,?download_midware=self.download_midware,?callback=self.parser_detail_page,
??????????????????????????????title=title)

第四步，爬取详情页面数据

上一步下发新的任务，通过关键字「 callback 」指定回调函数，最后在 parser_detail_page 中对详情页面进行数据解析

def?parser_detail_page(self,?request,?response):
????"""
????解析文章详情数据
????:param?request:
????:param?response:
????:return:
????"""
????title?=?request.title

????url?=?request.url

????#?解析文章详情页面，获取点赞、收藏、评论数目及作者名称
????author?=?response.xpath('//a[@class="author-title"]/text()').extract_first().strip()

????print("作者：",?author,?'文章标题:',?title,?"地址：",?url)

????desc_elements?=?response.xpath('//span[@class="xilie"]/span')

????print("desc数目:",?len(desc_elements))

????#?点赞
????like_count?=?int(re.findall('\d+',?desc_elements[1].xpath('./text()').extract_first())[0])
????#?收藏
????collection_count?=?int(re.findall('\d+',?desc_elements[2].xpath('./text()').extract_first())[0])
????#?评论
????comment_count?=?int(re.findall('\d+',?desc_elements[3].xpath('./text()').extract_first())[0])

????print("点赞：",?like_count,?"收藏:",?collection_count,?"评论:",?comment_count)

数据入库

使用上面实例化的数据库对象执行 SQL，将数据插入到数据库中即可

#?插入数据库
sql?=?"INSERT?INTO?topic(title,auth,like_count,collection,comment)?values('%s','%s','%s','%d','%d')"?%?(
title,?author,?like_count,?collection_count,?comment_count)

#?执行
self.db.execute(sql)

最后

本篇文章通过一个简单的实例，聊到了 feapder 中最简单的爬虫 AirSpider

若需要相关爬虫资料的可以扫一扫备注【爬虫】

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder - 文章图片

内容总结

以上是互联网集市为您收集整理的清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder全部内容，希望文章能够帮你解决清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/987043.html

来源：【匿名】

更多 ►

【清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder】教程文章相关的互联网学习教程文章

Python爬虫框架Scrapy 学习笔记 6 ------- 基本命令【代码】

1. 有些scrapy命令，只有在scrapy project根目录下才available,比如crawl命令2 . scrapy genspider taobao http://detail.tmall.com/item.htm?id=12577759834自动在spider目录下生成taobao.py# -*- coding: utf-8 -*- import scrapyclass TaobaoSpider(scrapy.Spider): name = "taobao" allowed_domains = ["http://detail.tmall.com/item.htm?id=12577759834"] start_urls = ( ‘http://www.http://detail.tm...

用scrapy 爬虫框架读取统计局网站的行政区划（备忘记录）【代码】【图】

不知不觉养成了一个习惯：完成一个工作或学习新知识后，要及时整理，否则过一段时间就忘记了。下面是用scrapy 爬虫框架读取行政区划的记录1. SelectorGadget 是个好东西，下载和安装可以网上查安装后，会在crome浏览器右上角有个图标。点击右上角这个图标后，进入css选取模式，（1）点击网页内容，被选取内容显示黄色，同时css选择器会显示在控制面板上。（2）再点击黄色内容，会变红色，表示排除这一项标签。如图：表...

使用Scrapyd部署Scrapy爬虫到远程服务器上

1、准备好爬虫程序2、修改项目配置　　找到项目配置文件scrapy.cnf,将里面注释掉的url解开来　　本代码需要连接数据库，因此需要修改对应的数据库配置　　　　其实就是将里面的数据库地址进行修改，变成远程数据库服务器地址，需要保证scrapy服务器能够连接数据库服务器3、部署项目　　在部署项目之前要保证scrapyd服务是开启状态。　　　　进入本地爬虫工程的目录　　执行对应的部署命令4、调度爬虫　　调度爬虫需要使用curl，以下...

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)【代码】【图】

转载请注明出处：http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题，我们都知道，现在很多的页面都是用动态加载的技术，这一方面带来了良好的页面体验，另一方面，在抓取时或者或少的带来了相当大的麻烦，因为我们知道直接get主页页面url，这些内容是没有办法显示的。那怎么处理这些内容呢？上图是一个直观的分析，在抓取数据时，我们一般优先考虑到手机端的网站，因为手机端的网站得到...

4.scrapy爬虫文件【代码】

scrapy.Spider这一节我们来聊一聊爬虫文件1. 请求发送# -*- coding: utf-8 -*- import scrapyclass BaiduSpider(scrapy.Spider):name = ‘baidu‘allowed_domains = [‘baidu.com‘]start_urls = [‘http://baidu.com/‘]def parse(self, response):print(response.text) 我们来一步一步分析这个文件中的代码是如何运行的1.1 start_urls这是一个列表, 列表的每一个元素都一个一个url, 当我们的爬虫启动的时候会循环这个列表, 然后会...

爬虫Scrapy框架-初学

安装： python -m pip install Scrapy创建项目：python -m scrapy startproject xxx （不知道为什么必要加python -m 待解决）进入项目：cd xxx #进入某个文件夹下创建爬虫：python -m scrapy genspider xxx（爬虫名） xxx.com （爬取域）# 注意:这个域名是可以随便写的[但是必须要写 ]，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可! /* 其他生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)运...

Scrapy-Web爬虫框架初识、安装、基本使用【代码】

一、Scrapy初识Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有很强通用性的项目模板。- Scrapy内容- 基于框架发起请求- 数据解析- 持久化存储- 核心组件的工作原理- 全站数据爬取- 深度爬取- 中间件- 分布式- 增量式原文：https://www.cnblogs.com/dai-zhe/p/14800745.html

Python爬虫框架Scrapy安装使用步骤

一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。二、Scrapy安装指南我们的安装...

Python爬虫-Scrapy-CrawlSpider与ItemLoader【代码】【图】

一、CrawlSpider根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性.除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了.爬虫一般来说分为垂直爬取和水平爬取, 这里拿猫眼电影TOP100 举例. 垂直爬取就是从目录进入到内容详情后爬取, 即从当前页进入某一影片的详情页面; 水平爬取就是从这一页目录翻...

scrapy主动退出爬虫的代码片段(python3)【代码】

问题：在运行scrapy的过程中，如果想主动退出该怎么做？背景：比如说我只要爬取当日的新闻，那么在遍历的时候，如果出现了超过1条不是当日的新闻，那么就不爬取了，就主动退出爬虫，这个时候该怎么做呢？IDE：pycharm版本：python3框架：scrapy系统：windows10代码如下：# -*- coding: utf-8 -*-import scrapy from torrentSpider.items.NavigationItem import NavigationItem from torrentSpider.items.TorrentItem import Torren...

爬虫框架_scrapy1【代码】【图】

介绍： Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因...

scrapy进阶（CrawlSpider爬虫__爬取整站小说）【代码】

# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from crawlspider.items import CrawlspiderItemclass CrawlspidersSpider(CrawlSpider):name = ‘CrawlSpiders‘allowed_domains = [‘sbiquge.com‘]start_urls = [‘https://www.sbiquge.com/biqukan/‘]rules = (Rule(LinkExtractor(allow="/\d+?_\d+?/",unique=True),callback=‘pa...

scrapy爬虫框架(二)【代码】

scrapy爬虫框架(二)将数据保存到json文件中settings.py打开pipeline,其中数字代表优先级（值越小优先级越高）# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = {'qsbkSpider.pipelines.QsbkspiderPipeline': 300, }qsbk.py# -*- coding: utf-8 -*- import scrapyclass QsbkSpider(scrapy.Spider):name = 'qsbk'allowed_domains = ['www.yicommunity.com']start_ur...

Scrapy爬虫框架的安装和使用【代码】

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。官方网站：https://scrapy.org官方文档：https://docs.scrapy.orgPyPI：https://pypi.python.org/pypi/ScrapyGitHub：https://github.com/scrapy/scrapy中文文档：http://scrapy-chs.readthedocs.io一、安装Scrapy如果你的...

基于 Scrapy-redis 的分布式爬虫详细设计【代码】【图】

基于 Scrapy-redis 的分布式爬虫设计目录前言安装环境Debian / Ubuntu / Deepin 下安装Windows 下安装基本使用初始化项目创建爬虫运行爬虫爬取结果进阶使用分布式爬虫anti-anti-spiderURL Filter总结相关资料前言在本篇中，我假定您已经熟悉并安装了 Python3。如若不然，请参考 Python 入门指南。关于 ScrapyScrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等...

首页 / 爬虫 / 清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder

内容导读

内容图文

介绍及安装

第二步，在 start_requests 方法中，指定爬取主链接地址，使用关键字「download_midware 」配置随机 UA

第三步，爬取首页标题、链接地址

第四步，爬取详情页面数据

数据入库

最后

内容总结

内容备注

内容手机端

【清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder】教程文章相关的互联网学习教程文章

爬虫 - 相关标签

框架 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程