首页 / 爬虫 / python爬虫——用Scrapy框架爬取阳光电影的所有电影

python爬虫——用Scrapy框架爬取阳光电影的所有电影

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬虫——用Scrapy框架爬取阳光电影的所有电影，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5661字，纯文字阅读大概需要9分钟。

内容图文

python爬虫——用Scrapy框架爬取阳光电影的所有电影

1.附上效果图
python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片

2.阳光电影网址http://www.ygdy8.net/index.html
3.先写好开始的网址

	name = 'ygdy8'
    allowed_domains = ['ygdy8.net']
    start_urls = ['http://www.ygdy8.net/index.html']

4.再写采集规则

	#采集规则的集合
    rules = (
        #具体实现的采集规则
        #采集导航页中电影的部分 allow是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了
        #deny是去掉游戏那一栏
        Rule(LinkExtractor(allow=r'index.html', deny='game')),
        # follow=True 下一次提取网页中如果包含我们需要提取的信息是否还要继续提取
        Rule(LinkExtractor(allow=r'list_\d+_\d+.html'),follow=True),
        #allow里面提取详情页信息
        #callback回调函数将相应交给谁处理
        Rule(LinkExtractor(allow=r'/\d+/\d+.html'),callback='parse_item',follow=False),
    )

第一个规则是从导航栏那里匹配,匹配除了游戏的其他导航栏

#采集导航页中电影的部分 allow是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了
#deny是去掉游戏那一栏
Rule(LinkExtractor(allow=r'index.html', deny='game')),

python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片

python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片
第二个规则是匹配导航栏下每一页的信息，都是由list下划线加2个数字组成，所以就用\d表示数字,follow是为了继续提取才写的，为了下一步获取详情页的信息

 # follow=True 下一次提取网页中如果包含我们需要提取的信息是否还要继续提取
 Rule(LinkExtractor(allow=r'list_\d+_\d+.html'),follow=True),

python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片

第3个规则是匹配详情页的信息，通过follow匹配每一页的电影详情,每个电影详情页都是由/和数字组成，所以用/\d来匹配，callback回调函数就将数据交给下面的parse_item处理

#allow里面提取详情页信息
#callback回调函数将相应交给谁处理
Rule(LinkExtractor(allow=r'/\d+/\d+.html'),callback='parse_item',follow=False)

python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片

5.数据处理的方法

 #解析采集回来的数据,response就是得到的响应
    def parse_item(self, response):

        name = response.xpath('//div[@class="title_all"]/h1/font/text()').get()#获取电影名字
        #用get和extract_first都可以
        # name = response.xpath('//div[@class="title_all"]/h1/font/text()').extract_first()
        ftp_url = re.findall('<a href="(.*?)">ftp',response.text)#response.text响应文本
        #获取电影的ftp地址
        if(name and ftp_url):#如果name和ftp_url都存在生成字典
            items = {
                'name': name,
                'ftp_url': ftp_url
            }
        yield items#生成器

python爬虫——用Scrapy框架爬取阳光电影的所有电影 - 文章图片
因为这里的ftp通过浏览器解析的和源码不一样，而且每个格式有点区别，所以我用正则表达式提取

这2个提取哪一个都可以，我是取前一个，.*?尽可能多的匹配，就是匹配href到下一个>ftp之前的所有字节

ftp_url = re.findall('<a href="(.*?)">ftp',response.text)

6.文本存储，这里要用到pipelines管道，我写了json和csv的存储方法，但是也有一点小错误，就是我的脚本运行完之后好像是没有用到close_spider的方法，所以json文件会少一个]右括号

class JsonPipeline(object):
    def __init__(self):
        self.file = open('阳光电影.json', 'w+',encoding='utf-8')

    def open_spider(self, spider):
        self.file.write('[')

    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False)+",\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.seek(-1, os.SEEK_END)
        self.file.truncate()
        self.file.write(']')
        self.file.close()



class CsvPipeline(object):
    def __init__(self):
        self.f = open("阳光电影.csv", "w",newline='')
        self.writer = csv.writer(self.f)
        self.writer.writerow(['name','ftp_url'])

    def process_item(self, item, spider):
        yangguang_list =  [item['name'], item['ftp_url']]
        self.writer.writerow(yangguang_list)
        return item

在pipelines写完之后还要在settings中设置，给他们开一个通道

ITEM_PIPELINES = {
   'ygdy8Spider.pipelines.JsonPipeline': 300,
   'ygdy8Spider.pipelines.CsvPipeline': 301,

}

7.完整代码
ygdy8

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.linkextractors import LinkExtractor #链接提取器
from scrapy.spiders import CrawlSpider, Rule #导入全站爬虫和采集规则


class Ygdy8Spider(CrawlSpider):
    name = 'ygdy8'
    allowed_domains = ['ygdy8.net']
    start_urls = ['http://www.ygdy8.net/index.html']

    #采集规则的集合
    rules = (
        #具体实现的采集规则
        #采集导航页中电影的部分 allow是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了
        Rule(LinkExtractor(allow=r'index.html', deny='game')),
        # follow=True 下一次提取网页中如果包含我们需要提取的信息是否还要继续提取
        Rule(LinkExtractor(allow=r'list_\d+_\d+.html'),follow=True),
        #allow里面提取详情页信息
        #callback回调函数将相应交给谁处理
        Rule(LinkExtractor(allow=r'/\d+/\d+.html'),callback='parse_item',follow=False)
    )

    #解析采集回来的数据,response就是得到的响应
    def parse_item(self, response):

        name = response.xpath('//div[@class="title_all"]/h1/font/text()').get()#获取电影名字
        # name = response.xpath('//div[@class="title_all"]/h1/font/text()').extract_first()
        ftp_url = re.findall('<a href="(.*?)">ftp',response.text)#response.text响应文本
        #获取电影的ftp地址
        if(name and ftp_url):#如果name和ftp_url都存在生成字典
            items = {
                'name': name,
                'ftp_url': ftp_url
            }
        yield items

pipelines

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import csv
import os

# class Ygdy8SpiderPipeline(object):
#     def process_item(self, item, spider):
#         return item



class JsonPipeline(object):
    def __init__(self):
        self.file = open('阳光电影.json', 'w+',encoding='utf-8')

    def open_spider(self, spider):
        self.file.write('[')

    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False)+",\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.seek(-1, os.SEEK_END)
        self.file.truncate()
        self.file.write(']')
        self.file.close()



class CsvPipeline(object):
    def __init__(self):
        self.f = open("阳光电影.csv", "w",newline='')
        self.writer = csv.writer(self.f)
        self.writer.writerow(['name','ftp_url'])

    def process_item(self, item, spider):
        yangguang_list =  [item['name'], item['ftp_url']]
        self.writer.writerow(yangguang_list)
        return item

settings

ITEM_PIPELINES = {
   'ygdy8Spider.pipelines.JsonPipeline': 300,
   'ygdy8Spider.pipelines.CsvPipeline': 301,

}

内容总结

以上是互联网集市为您收集整理的python爬虫——用Scrapy框架爬取阳光电影的所有电影全部内容，希望文章能够帮你解决python爬虫——用Scrapy框架爬取阳光电影的所有电影所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/812587.html

来源：【匿名】

【上一篇】用Python爬虫对城市公交、地铁站点和线路数据采集【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python爬虫——用Scrapy框架爬取阳光电影的所有电影】教程文章相关的互联网学习教程文章

python3 爬虫5--分析Robots协议

1Robots协议Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下robots.txt中内容的示范：User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效Disallow:/ //表示了不允许抓取的目录，/表示不允许抓取所有目录，没有写就代表允许抓取所有的目录Allow:/public/ //表示在排除Disallow中，可以抓取的目录2robotparserobotparse就是用来专门解析robots.txt文件的...

python爬虫scrapy之rules的基本使用【代码】

Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response ' ref='nofollow'> scrapy.http.Response 对象)中抽取最终将会被follow链接的对象? Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求? 每个LinkExtractor有唯一的公共方法是 extract_links ,它接收一个 Response' ref='nofollow'> Response 对象,并返回一个 scrapy.link.Link 对象?Link ...

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面【代码】【图】

??鉴于现阶段国内的搜索引擎还用不上Google, 笔者会寻求Bing搜索来代替。在使用Bing的过程中，笔者发现Bing的背景图片真乃良心之作，十分赏心悦目，因此，笔者的脑海中萌生了一个念头：能否自己做个爬虫，可以提取Bing搜索的背景图片并设置为Windows的电脑桌面呢？Bing搜索的页面如下： ??于是在一个风雨交加的下午，笔者开始了自己的探索之旅。当然，过程是曲折的，但笔者尝试着能把它讲得简单点。 ??首先，我们需要借助一些Pytho...

Python 爬虫6——Scrapy的安装和使用【代码】【图】

前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作，但其实能完成的功能都很简单，假如要进行复制的数据匹配和高效的操作，可以引入第三方的框架，例如Scrapy便是比较常用的爬虫框架。一、Scrapy的安装：1.最简单的安装方式：根据官方主页的指导：http://www.scrapy.org/ 使用pip来安装python相关插件其实都很简单，当然用这个办法安装Scrapy也是最为简单的安装方式，仅需在命令行窗口...

python | 爬虫笔记（六）- Ajax数据爬取

request得到和浏览器数据不同数据加载是异步加载方式，原始页面不包含数据，加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。因此遇到这种情况，用requests模拟ajax请求6.1 Ajax 1- 介绍Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。是利用 JavaScript 在...

python 爬虫第二个程序【代码】

#!/usr/bin/python #encoding=utf-8 import urllib2 import urllib import re import thread import time class Spider(object): def __init__(self): self.page = 1 self.pages = [] self.enable = False def Start(self): self.enable = True page = self.page thread.start_new_thread(self.LoadPage,()) while self.enable: ...

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

本文主要是自己的在线代码笔记。在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。 PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援，像是生化学与细胞生物学。 PubMed是因特网...

python爬虫中图形验证码的处理【代码】【图】

使用python爬虫自动登录时，遇到需要输入图形验证码的情况，一个比较简单的处理方法是使用打码平台识别验证码。使用过两个打码平台，打码兔和若快，若快的价格更便宜，识别率相当。若快需要注册两个帐号：开发者帐号与用户帐号，用户帐号用于发送识别请求，开发者帐号可以注册软件id，并于识别请求进行绑定，可以参与识别收入的分成返现。获取图形验证码目前发现的有两种方式：0x01 在抓包中可以直接获得图片：发送get请求可以直接...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之爬虫（三） Urllib库的基本使用【代码】【图】

官方文档地址：https://docs.python.org/3/library/urllib.html什么是UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)url参数的使用先写一个简单...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

python爬虫及结巴分词《攀登者》影评分析【代码】

《攀登者》影评爬取及分析0、项目结构其中simkai.ttf为字体文件，Windows查看系统自带的字体C:\Windows\Fonts一、爬取豆瓣影评数据# -*- coding: utf-8 -*- """爬取豆瓣影评""" import requests from lxml import etree import timeurl = "https://movie.douban.com/subject/30413052/comments?start=%d&limit=20&sort=new_score&status=P"#请求头 headers = {'Host': 'movie.douban.com', 'User-Agent': 'Mozilla/5.0 (Windows NT...

首页 / 爬虫 / python爬虫——用Scrapy框架爬取阳光电影的所有电影

python爬虫——用Scrapy框架爬取阳光电影的所有电影

内容导读

内容图文

python爬虫——用Scrapy框架爬取阳光电影的所有电影

内容总结

内容备注

内容手机端

【python爬虫——用Scrapy框架爬取阳光电影的所有电影】教程文章相关的互联网学习教程文章

python3 爬虫5--分析Robots协议

python爬虫scrapy之rules的基本使用【代码】

Python爬虫之提取Bing搜索的背景图片并设置为Windows的电脑桌面【代码】【图】

Python 爬虫6——Scrapy的安装和使用【代码】【图】

python | 爬虫笔记（六）- Ajax数据爬取

python 爬虫第二个程序【代码】

python爬虫模块理解【代码】

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

python爬虫中图形验证码的处理【代码】【图】

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

python之爬虫（三） Urllib库的基本使用【代码】【图】

python爬虫CSDN文章抓取

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

python爬虫及结巴分词《攀登者》影评分析【代码】

PYTHON - 相关标签

爬虫 - 相关标签

框架 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程