首页 / 更多教程 / Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2447字，纯文字阅读大概需要4分钟。

内容图文

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例

创建爬虫

scrapy startproject wxapp

cd wxapp

scrapy gensipder -c crawl wxapp_spider "www.wxapp-union.com"

修改settings.py代码

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例 - 文章图片

爬虫部分代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from pa_chong.Scrapy.wxapp.wxapp.items import WxappItem


class WxappSpiderSpider(CrawlSpider):
    name = 'wxapp_spider'
    allowed_domains = ['www.wxapp-union.com']
    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),
        Rule(LinkExtractor(allow=r'.+article-.+html'), callback='parse_detail', follow=False)
    )

    '''
    CrawlSpider:
    使用Rule和LinkExtractor来决定爬虫的具体走向

    1. allow：要能够限制在想要爬去的url上面，不能跟其他的url产生相同的正则表达式

    2. follow：在爬去页面的时候，如果需要将满足条件的url再次进行跟进，此时需要将follow设置为Turn
               否则设置为False，设置为False就不会继续爬取当前页面中满足规则的url

    3. callback：如果只是为了获取页面的url，不需要指定callback
                 如果需要获取url对应页面中的数据，需要指定一个解析数据的回调函数作为参数传递给callback
    '''

    def parse_detail(self, response):
        title = response.xpath('//h1[@class="ph"]/text()').get()
        authors = response.xpath('//p[@class="authors"]/a/text()').get()
        time = response.xpath('//p[@class="authors"]/span/text()').get()
        article = response.xpath('//td[@id="article_content"]//text()').getall()
        article = ''.join(article).strip()

        item = WxappItem(title=title, authors=authors, time=time, article=article)
        yield item

items.py部分代码

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class WxappItem(scrapy.Item):
    # define the fields for your item here like:

    title = scrapy.Field()
    authors = scrapy.Field()
    time = scrapy.Field()
    article = scrapy.Field()

pipeline部分代码

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exporters import JsonLinesItemExporter


'''
使用scrapy.exporters下的JsonLinesItemExporter'''


class WxappPipeline(object):
    def __init__(self):
        self.f = open('wxsqjc.json', 'wb')
        self.exporter = JsonLinesItemExporter(self.f, ensure_ascii=False, encoding='utf-8')

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        self.f.close()

内容总结

以上是互联网集市为您收集整理的Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例全部内容，希望文章能够帮你解决Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/933415.html

来源：【匿名】

【上一篇】jvm自动内存管理【下一篇】关于IE的RegExp.exec的问题

更多 ►

【Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例】教程文章相关的互联网学习教程文章

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例【代码】【图】

创建爬虫 scrapy startproject wxappcd wxappscrapy gensipder -c crawl wxapp_spider "www.wxapp-union.com"修改settings.py代码爬虫部分代码 # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from pa_chong.Scrapy.wxapp.wxapp.items import WxappItemclass WxappSpiderSpider(CrawlSpider):name = 'wxapp_spider'allowed_domains = ['ww...

关于scrapy无法下载图片 pipeline不执行解决办法记一次大坑【图】

关于scrapy无法下载图片 pipeline不执行解决办法记一次大坑出现的问题点：scrapy运行正常，pipeline管道经过测试是没有运行的。判断已经主要是并没有创建设置的IMAGES_STORE 提前指出解决的办法，主要是没有依赖处理图片的第三库pillow pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com pillow 经历过程及背景首先是最近电脑刚重装系统，python环境也是重装了。所以一些第三方库会有缺失.起...

scrapy安装_Scrapy1.5中文文档_Scrapy 中文网【图】

本scrapy文档主要介绍scrapy安装，也就是个综述，简单的瞄一眼，对你有益无害！ scrapy可以运行在python2.7、python3.3或者是更高的版本上；如果你用的是Anaconda（Anaconda下载）或者Minconda，你可以从conda-forge进行安装，可以使用下面的命令： conda install -c conda-forge scrapy 如果你已经安装了python包管理工具PyPI，你也可以使用下面命令进行安装： pip install Scrapy值得注意的是，如果你使用的是pip安装，你需要解决...

Scrapy：刮掉了0页(在scrapy shell中有效,但不适用于scrapy crawl spider命令)【代码】

我有一些刮y的问题.它没有返回任何结果.我试图将以下蜘蛛网复制并粘贴到刮擦的外壳中,并且确实起作用.真的不确定是什么问题,但是当我使用“ scrapy crawl rxomega”运行它时,它不起作用.from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders import CrawlSpider, Rule from iherb.items import IherbItemclass RxomegaSpider(CrawlSpider):name =...

Scrapy-拓展类和settings.py配置文件【代码】

EXTENSIONS = { # ‘scrapy.extensions.telnet.TelnetConsole‘: None,‘pro_scrapy.extensions.MyExtend‘: 300,}from scrapy import signalsclass MyExtend:def__init__(self,crawler):self.crawler = crawler # 在指定信号上注册操作 crawler.signals.connect(self.start, signals.engine_started)crawler.signals.connect(self.close, signals.spider_closed)@classmethoddef from_crawler(cls, crawler):retur...

5. scrapy 请求参数 - 分布式 - 增量式【代码】

目录1.请求传参2.中间件3.全站数据爬取4.分布式概念:实现流程代码5.增量式简介代码 1.请求传参深度爬取：爬取的数据没有存储在同一张页面中。创建工程:scrapy startproject moviePro 创建爬虫文件:cd movieProscrapy genspider movie www.xxx.com 运行项目:scrapy crawl movie配置文件settings.py BOT_NAME = 'moviePro'SPIDER_MODULES = ['moviePro.spiders'] NEWSPIDER_MODULE = 'moviePro.spiders'# 请求头 USER_AGENT = 'Moz...

Scrapy源码分析（一）架构概览【图】

使用 Scrapy 开发一个爬虫非常简单，这里使用 Scrapy 官网上的例子来说明如何编写一个简单爬虫：简单来讲，编写和运行一个爬虫只需以下几步：使用 scrapy startproject 命令创建一个爬虫模板，或自己按模板编写爬虫代码定义一个爬虫类，并继承 scrapy.Spider，然后重写 parse 方法 parse 方法里编写网页解析逻辑，以及抓取路径使用 scrapy runspider <spider_file.py> 运行这个爬虫可见，使用 Scrapy 编写简单的几行代码，就能采...

scrapy源码解读（二）命令行工具【代码】【图】

一、前言 scrapy的命令分为全局命令和项目命令。顾名思义，全局命令是不管什么时候都能使用，项目命令只能用于具体已存在的项目上。二、全局命令startproject（创建爬虫项目，一个项目下有一个或多个爬虫 -- scrapy startproject project_name [project_dir]） genspider（进入爬虫项目目录，创建爬虫 -- cd project_name/project_dir && scrapy genspider spider_name domain_name) settings（获取项目配置 -- scrapy settings -...

scrapy爬取微信小程序社区教程（crawlspider）【图】

爬取的目标网站是： http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题，作者，时间和详细内容通过下面的命令可以快速创建 CrawlSpider模板的代码：scrapy genspider wsapp wxapp-union.com CrawlSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更...

首页 / 更多教程 / Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例

内容导读

内容图文

内容总结

内容备注

内容手机端

【Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例】教程文章相关的互联网学习教程文章

Scrapy框架：CrawlSpider和Scrapy Shell，微信小程序社区CrawlSpider案例【代码】【图】

关于scrapy无法下载图片 pipeline不执行解决办法记一次大坑【图】

scrapy安装_Scrapy1.5中文文档_Scrapy 中文网【图】

Scrapy：刮掉了0页(在scrapy shell中有效,但不适用于scrapy crawl spider命令)【代码】

Scrapy-拓展类和settings.py配置文件【代码】

5. scrapy 请求参数 - 分布式 - 增量式【代码】

Scrapy源码分析（一）架构概览【图】

scrapy源码解读（二）命令行工具【代码】【图】

scrapy爬取微信小程序社区教程（crawlspider）【图】

更多教程 - 最新教程

更多教程 - 最热教程