首页 / PYTHON / 【菜鸟学Python】使用Scrapy框架爬取糗事百科

【菜鸟学Python】使用Scrapy框架爬取糗事百科

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【菜鸟学Python】使用Scrapy框架爬取糗事百科，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3138字，纯文字阅读大概需要5分钟。

内容图文

第一步：

创建项目

scrapy stratproject [name]

如 scrapy startproject choushibaike

第二步：

进入到项目的文件夹目录创建APP

scrapy gensider baike lovehhy.net

第三步：

配置baike.py文件

# -*- coding: utf-8 -*-
import scrapy
from ..items import ChoushibaikeItem

class BaikeSpider(scrapy.Spider):
    name = ‘baike‘
    allowed_domains = [‘lovehhy.net‘]
    start_urls = [‘http://www.lovehhy.net/joke/Detail/QSBK‘]
    def parse(self, response):

        titles = response.xpath(‘//div[@class="cat_llb"]/h3/a/text()‘).extract()
        contents = response.xpath(‘//div[@class="cat_llb"]/div[@id="endtext"]/text()‘).extract()
        times = response.xpath(‘//div[@class="cat_llb"]/text()‘).extract()
        title_list = []
        for title in titles:
            title_list.append(title)
        content_list = []
        for content in contents:
            content_list.append(content)
        time_list = []
        for time in times:
            time_list.append(time)
        item_lists = zip(title_list, content_list, time_list)
        for item_list in item_lists:
            item = ChoushibaikeItem()
            item[‘title‘] = item_list[0]
            item[‘content‘] = item_list[1]
            item[‘time‘] = item_list[2][0:22]
            item[‘click‘] = item_list[2][22:-1]
            yield item
        next_url = response.xpath(‘//a[text()="下一页>>"]/@href‘).extract_first()
        url = response.urljoin(next_url)
        yield scrapy.Request(url=url, callback=self.parse)

第四步：

配置items.py文件

import scrapy

class ChoushibaikeItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    content = scrapy.Field()
    time = scrapy.Field()
    click = scrapy.Field()

第五步：

配置pipelines.py文件

import pymongo


class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get(‘MONGO_URI‘),
            mongo_db=crawler.settings.get(‘MONGO_DB‘)
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        name = item.__class__.__name__
        self.db[name].insert(dict(item))
        return item

    def close_spider(self, spider):
        self.client.close()

第六步：

配置settings.py文件

            #
             -*- coding: utf-8 -*-
            #
             Scrapy settings for choushibaike project
            
#
#
             For simplicity, this file contains only settings considered important or
            
#
             commonly used. You can find more settings consulting the documentation:
            
#
#
                 https://docs.scrapy.org/en/latest/topics/settings.html
            
#
                 https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
            
#
                 https://docs.scrapy.org/en/latest/topics/spider-middleware.html
            
BOT_NAME = ‘choushibaike‘

SPIDER_MODULES = [‘choushibaike.spiders‘]
NEWSPIDER_MODULE = ‘choushibaike.spiders‘# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36‘# Obey robots.txt rules
ROBOTSTXT_OBEY = False


ITEM_PIPELINES = {
   # ‘choushibaike.pipelines.ChoushibaikePipeline‘: 300,‘choushibaike.pipelines.MongoPipeline‘: 400,
}



MONGO_URI = ‘mongodb://admin:123456@localhost/‘
MONGO_DB = ‘choushibaike‘

第七步：

运行项目

scrapy crawl baike

原文：https://www.cnblogs.com/liduo0413/p/11687319.html

内容总结

以上是互联网集市为您收集整理的【菜鸟学Python】使用Scrapy框架爬取糗事百科全部内容，希望文章能够帮你解决【菜鸟学Python】使用Scrapy框架爬取糗事百科所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1142748.html

来源：【匿名】

【上一篇】老男孩Python3.5培训第一周作业【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【【菜鸟学Python】使用Scrapy框架爬取糗事百科】教程文章相关的互联网学习教程文章

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

Python打印scrapy蜘蛛抓取树结构的方法【代码】

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0):urls = allurls[referer]for url in urls:print ‘ ‘*indent + refererif url in allurls:print_urls(allurls, url, indent+2) def...

scrapy RuntimeError: maximum recursion depth exceeded while calling a Python object 超出python最大递归数异常

2019-10-21 19:01:00 [scrapy.core.engine] INFO: Spider opened2019-10-21 19:01:00 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)2019-10-21 19:01:00 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:60232019-10-21 19:01:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://amp-api-search-edge.apps.apple.com/v1/catalog/cn/...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之scrapy框架【代码】【图】

1.概念‘‘‘一 Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据** Scarpy框架介绍 ** 1、引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 2、调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报【代码】【图】

1.项目准备：网站地址：http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫：scrapy startproject weatherscrapy genspider HQUSpider quanzhou.tianqi.com项目文件结构如图： 3.修改Items.py： 4.修改Spider文件HQUSpider.py：（1）先使用命令：scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器：（2）试验选择器：打开chrome浏览器，查看网页源代码：（3）执行命令查看response结果：（4）编写HQUSpider.py文件：...

【菜鸟学Python】使用Scrapy框架爬取糗事百科【代码】

第一步：创建项目scrapy stratproject [name]如 scrapy startproject choushibaike第二步：进入到项目的文件夹目录创建APPscrapy gensider baike lovehhy.net第三步：配置baike.py文件# -*- coding: utf-8 -*-import scrapyfrom ..items import ChoushibaikeItemclass BaikeSpider(scrapy.Spider): name = ‘baike‘ allowed_domains = [‘lovehhy.net‘] start_urls = [‘http://www.lovehhy.net/joke/Detail/QSBK‘] ...

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

windows下安装scrapy依次执行下列操作：pip install wheelpip install lxmlpip install PyOpenssl安装Microsoft visual c++ build toolspip install twisted　　当此处提示错误时，安装Microsoft Visual C++ Compiler for Python 2.7　　下载地址：https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266pip install pywin32pip install scrapy检测scrapy是否安装成功：在cmd中执行scrapy 原文：https://www.cnblog...

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/7183220.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapy startproject 项目名例子如下：localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project ‘test1‘, using template directory ‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project‘, created in:/Users/zhaofan/Documents/pytho...

python-scrapy的编码问题

在学习scrapy中，遇到编码问题还是很头痛的问题的。由于对于语言的对不熟悉，加上不会思考的去解决问题。这样盲目的实践似乎就是在浪费时间。用心思考一下是非常重要的一个过程，在没有办法前进的时候，先学会停下来，不要盲目的去走。静下心是比较理想的解决问题的方式。不要着急，既然是学习。那就要慢慢的学习，不能很急切的盲目茫然的去乱闯。会思考，善于发现问题，然后一步一步的慢慢的解决。不能太过着急。原文：http://www...

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

网络爬虫（蜘蛛）Scrapy,Python安装！【图】

Scrapy,Python安装，使用！1、下载安装Python2.7.6，因为Scrapy还不支持3.x版本。Latest Python 2 Release - Python 2.7.6，安装时选择当前用户。2、到http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/下载安装pywin32-219.win-amd64-py2.7.exe3、将C:\python27\Scripts;C:\python27;添加到环境变量里。4、http://slproweb.com/products/Win32OpenSSL.html 到这里下载Visual C++ 2008 Redistributables和Win32...

python 3.6.1 安装scrapy踩坑之旅【图】

系统环境：win10 64位系统安装python基础环境配置不做过多的介绍 window环境安装scrapy需要依赖pywin32，下载对应python版本的exe文件执行安装，下载的pywin32版本不对安装会失败下载依赖地址：https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/ 下载依赖安装完成后试下pip install scrapy，很显然失败了发现网友的解决方案：地址：https://blog.csdn.net/aviciie/article/details/80768328安装scrapy还需要的...

首页 / PYTHON / 【菜鸟学Python】使用Scrapy框架爬取糗事百科

【菜鸟学Python】使用Scrapy框架爬取糗事百科

内容导读

内容图文

第一步：

第二步：

第三步：

第四步：

第五步：

第六步：

第七步：

内容总结

内容备注

内容手机端

【【菜鸟学Python】使用Scrapy框架爬取糗事百科】教程文章相关的互联网学习教程文章

SCRAPY - 相关标签

框架 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程