python之scrapy框架

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python之scrapy框架，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4261字，纯文字阅读大概需要7分钟。

内容图文

1.概念

‘‘‘一 Scrapy爬虫框架
发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据
** Scarpy框架介绍 **
    1、引擎(EGINE)
    引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。
    2、调度器(SCHEDULER)
    用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
    3、下载器(DOWLOADER)
    用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的
    4、爬虫(SPIDERS)
    SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求
    5、项目管道(ITEM PIPLINES)
    在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作
    下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
    你可用该中间件做以下几件事：
      　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
      　　(2) change received response before passing it to a spider;
      　　(3) send a new Request instead of passing received response to a spider;
      　　(4) pass response to a spider without fetching a web page;
      　　(5) silently drop some requests.
    6、爬虫中间件(Spider Middlewares)
    位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）
** Scarpy安装 **
    1、pip3 install wheel
    2、pip3 install lxml
    3、pip3 install pyopenssl
    4、pip3 install pypiwin32
    5、安装twisted框架
        下载twisted
            http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
        安装下载好的twisted
            pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    6、pip3 install scrapy
** Scarpy使用 **
    1、进入终端cmd
        - scrapy
            C:\Users\administortra>scrapy
            Scrapy 1.6.0 - no active project
    2、创建scrapy项目
        1.创建一个文件夹，专门用于存放scrapy项目
            - D:\Scrapy_prject
        2.cmd终端输入命令
            scrapy startproject Spider_Project（ 项目名）
            - 会在 D:\Scrapy_prject文件夹下会生成一个文件
                   Spider_Project : Scrapy项目文件
        3.创建爬虫程序
            cd Spider_Project  # 切换到scrapy项目目录下
                          # 爬虫程序名称     目标网站域名
            scrapy genspider   baidu     www.baidu.com  # 创建爬虫程序
    3、启动scrapy项目，执行爬虫程序
        # 找到爬虫程序文件进行执行
        scrapy runspider只能执行某个 爬虫程序.py
            # 切换到爬虫程序执行文件目录下
            - cd D:\Scrapy_prject\Spider_Project\Spider_Project\spiders
            - scrapy runspider baidu.py
        # 根据爬虫名称找到相应的爬虫程序执行
        scrapy crawl 爬虫程序名称
            # 切换到项目目录下
            - cd D:\Scrapy_prject\Spider_Project
            - scrapy crawl baidu
‘‘‘
2.如何使用

技术分享图片

3.main.py

            #
             from scrapy.cmdline import execute
            
#
             # 写终端的命令
            
#
             # scrapy crawl
            
#
             execute(["scrapy","crawl","baidu"])
            from scrapy.cmdline import execute
# execute(["scrapy","genspider","lianjia","lianjia.com"])
# execute("scrapy crawl lianjia".split(" "))
execute("scrapy crawl --nolog lianjia".split(""))

            #
             -*- coding: utf-8 -*-
            import
             scrapy

            from scrapy import Request

# response的类from scrapy.http.response.html import HtmlResponse
class LianjiaSpider(scrapy.Spider):
    name = ‘lianjia‘# 爬虫程序名# 只保留包含lianjia.com的url
    allowed_domains = [‘lianjia.com‘]  # 限制域名# 存放初始请求url
    start_urls = [‘https://bj.lianjia.com/ershoufang/‘]

    def parse(self, response):  # response返回的响应对象# print(response)# print(type(response))# # 获取文本# print(response.text)# print(response.url)# 获取区域列表url
        area_list = response.xpath(‘//div[@data-role="ershoufang"]/div/a‘)

        # 遍历所有区域列表for area in area_list:
            print(area)
            ‘‘‘
            .extract()提取多个
            .extract_first()提取一个
            ‘‘‘# 1、区域名称
            area_name = area.xpath(‘./text()‘).extract_first()
            print(area_name)
            # 2、区域二级url
            area_url = ‘https://bj.lianjia.com/‘ + area.xpath(‘./@href‘).extract_first()
            print(area_url)
            # 会把area_url的请求响应数据交给callback方法# yield后面跟着的都会添加到生成器中yield Request(url=area_url, callback=self.parse_area)


    def parse_area(self, response):
        # print(response)
        house_list = response.xpath(‘//ul[@class="sellListContent"]‘)
        # print(house_list)if house_list:
            for house in house_list:

                house_name = house.xpath(‘.//div[@class="title"]/a/text()‘).extract_first()
                print(house_name)

                house_cost = house.xpath(‘.//div[@class="totalPrice]/text()‘).extract_first() + ‘万‘print(house_cost)

                house_price = house.xpath(‘.//div[@class="unitPrice"]/span/text()‘).extract_first()
                print(house_price)

                pass

4.微信机器人

            from wxpy import Bot
from pyecharts import Pie
import webbrowser

# 实例化一个微信机器人对象
bot = Bot()

# 获取到微信的所有好友
friends = bot.friends()

# 设定男性\女性\位置性别好友名称
attr = [‘男朋友‘, ‘女朋友‘, ‘人妖‘]

# 初始化对应好友数量
value = [0, 0, 0]

# 遍历所有的好友,判断这个好友是男性还是女性for friend in friends:
    if friend.sex == 1:
        value[0] += 1
    elif friend.sex == 2:
        value[1] += 1
    else:
        value[2] += 1

# 实例化一个饼状图对象
pie = Pie(‘tank的好友们!‘)

# 图表名称str，属性名称list，属性所对应的值list，is_label_show是否现在标签
pie.add(‘‘, attr, value, is_label_show=True)

# 生成一个html文件
pie.render(‘friends.html‘)

# 打开html文件
webbrowser.open(‘friends.html‘)

原文：https://www.cnblogs.com/lhhhha/p/11067196.html

内容总结

以上是互联网集市为您收集整理的python之scrapy框架全部内容，希望文章能够帮你解决python之scrapy框架所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1165695.html

来源：【匿名】

【上一篇】Python人工智能之图片识别，Python3一行代码实现图片文字识别【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python之scrapy框架】教程文章相关的互联网学习教程文章

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫：scrapy startproject weatherscrapy genspider HQUSpider quanzhou.tianqi.com项目文件结构如图： 3.修改Items.py： 4.修改Spider文件HQUSpider.py：（1）先使用命令：scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器：（2）试验选择器：打开chrome浏览器，查看网页源代码：（3）执行命令查看response结果：（4）编写HQUSpider.py文件：...

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

第一步：创建项目scrapy stratproject [name]如 scrapy startproject choushibaike第二步：进入到项目的文件夹目录创建APPscrapy gensider baike lovehhy.net第三步：配置baike.py文件# -*- coding: utf-8 -*-import scrapyfrom ..items import ChoushibaikeItemclass BaikeSpider(scrapy.Spider): name = ‘baike‘ allowed_domains = [‘lovehhy.net‘] start_urls = [‘http://www.lovehhy.net/joke/Detail/QSBK‘] ...

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

windows下安装scrapy依次执行下列操作：pip install wheelpip install lxmlpip install PyOpenssl安装Microsoft visual c++ build toolspip install twisted　　当此处提示错误时，安装Microsoft Visual C++ Compiler for Python 2.7　　下载地址：https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266pip install pywin32pip install scrapy检测scrapy是否安装成功：在cmd中执行scrapy 原文：https://www.cnblog...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

python-scrapy的编码问题

在学习scrapy中，遇到编码问题还是很头痛的问题的。由于对于语言的对不熟悉，加上不会思考的去解决问题。这样盲目的实践似乎就是在浪费时间。用心思考一下是非常重要的一个过程，在没有办法前进的时候，先学会停下来，不要盲目的去走。静下心是比较理想的解决问题的方式。不要着急，既然是学习。那就要慢慢的学习，不能很急切的盲目茫然的去乱闯。会思考，善于发现问题，然后一步一步的慢慢的解决。不能太过着急。原文：http://www...

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

Scrapy,Python安装，使用！1、下载安装Python2.7.6，因为Scrapy还不支持3.x版本。Latest Python 2 Release - Python 2.7.6，安装时选择当前用户。2、到http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/下载安装pywin32-219.win-amd64-py2.7.exe3、将C:\python27\Scripts;C:\python27;添加到环境变量里。4、http://slproweb.com/products/Win32OpenSSL.html 到这里下载Visual C++ 2008 Redistributables和Win32...

python 3.6.1 安装scrapy踩坑之旅【图】

系统环境：win10 64位系统安装python基础环境配置不做过多的介绍 window环境安装scrapy需要依赖pywin32，下载对应python版本的exe文件执行安装，下载的pywin32版本不对安装会失败下载依赖地址：https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/ 下载依赖安装完成后试下pip install scrapy，很显然失败了发现网友的解决方案：地址：https://blog.csdn.net/aviciie/article/details/80768328安装scrapy还需要的...

首页 / PYTHON / python之scrapy框架

python之scrapy框架

内容导读

内容图文

内容总结

内容备注

内容手机端

【python之scrapy框架】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

Python打印scrapy蜘蛛抓取树结构的方法【代码】

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之scrapy框架【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

python-scrapy的编码问题

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

python 3.6.1 安装scrapy踩坑之旅【图】

SCRAPY - 相关标签

框架 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程