用python爬取猫眼电影排行

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用python爬取猫眼电影排行，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3123字，纯文字阅读大概需要5分钟。

内容图文

利用requests库和正则表达式来爬取猫眼电影TOP100的相关内容

网页分析

首先进入猫眼电影TOP100榜单页面，网址:https://maoyan.com/board/4

用python爬取猫眼电影排行 - 文章图片

滑动到页面底部，发现有多个页面选择，进入第二个页面后观察网址变化，https://maoyan.com/board/4?offset=10，发现网址后多了一个参数offset=10,继续进入后边的页面，发现每进一页offset的值增加10.这个10代表每页有十部电影。由此我们可以知道，爬取这个TOP100榜单一共需要爬取10个页面，需要分开请求10次，页面网址中offset的值从0变化到90。所以我们可以设计一个循环爬取的程序，设置offset为变量，即可依次爬取10个页面得到TOP100电影的信息。

爬取网页

首先爬取第一页的内容（后边每一页与第一页爬取方法相同），利用requests库实现页面的爬取。具体代码如下：

def getPage(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0'}
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "爬取失败"

运行结果如下：

用python爬取猫眼电影排行 - 文章图片

解析页面

获取到的页面信息看起来十分冗杂，电影的各项信息都隐藏在一个个html标签的包裹之下，接下来我们要做的就是从这些复杂的页面信息中提取我们需要的电影信息。页面信息提取有多种方法，可以选择BeautifulSoup，pyquery，正则表达式等等，这里我们选择正则表达式来进行解析。

再次进入榜单页面，用浏览器自带的审查元素，随意点击一部电影，可以看到下图的场景:

用python爬取猫眼电影排行 - 文章图片

观察发现，每部电影的基本信息包括:排名，电影名称，主演，上映时间，得分，他们分别包含在不同的标签下。审查其余电影可以发现，每一部电影的基本信息都包含在相同名称的标签下，这对我们使用正则表达式的提取提供了很大的方便。下边我们来进行元素提取。

电影序号：class="board-index board-index-1" ;正则表达式：<dd>.*?board-index.*?>(.*?)

电影名称：href="/films/1203" title="霸王别姬" ；正则表达式：.*?title="(.*?)

主演：主演：张国荣,张丰毅,巩俐 ；正则表达式："star">(.*?)

上映时间：上映时间：1993-01-01 ；正则表达式："releasetime">(.*?)

代码实现如下：

def parse_one_page(html):
    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?"star">(.*?)</p>.*?"releasetime">(.*?)</p>.*?',re.S)
    items=re.findall(pattern,html)
    for item in items:
        print(item)

运行结果如下：

用python爬取猫眼电影排行 - 文章图片

分页爬取

为了爬取所有信息，我们需要遍历十次页面爬取。由前文分析可知，每个页面网址基本相同，只用最后的offset参数值不相同，所有我们设计函数，将offset作为参数传进去。实现代码如下：

def main(offset):
    url="https://maoyan.com/board/4?offset="+str(offset)
    html=getPage(url)
    parse_one_page(html)

if __name__=='__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)

运行结果如下：

用python爬取猫眼电影排行 - 文章图片

完整代码

import requests
import re
import time

def getPage(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0'}
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "爬取失败"
def parse_one_page(html):
    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?"star">(.*?)</p>.*?"releasetime">(.*?)</p>.*?',re.S)
    items=re.findall(pattern,html)
    for item in items:
        print(item)
        #print('\n')

def main(offset):
    url="https://maoyan.com/board/4?offset="+str(offset)
    html=getPage(url)
    parse_one_page(html)

if __name__=='__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)

参考书目《Python3网络爬虫开发实践》崔庆才

内容总结

以上是互联网集市为您收集整理的用python爬取猫眼电影排行全部内容，希望文章能够帮你解决用python爬取猫眼电影排行所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/837351.html

来源：【匿名】

【上一篇】python包(模块包) package 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【用python爬取猫眼电影排行】教程文章相关的互联网学习教程文章

需求：爬取网站上的公司信息代码如下：import json import os import shutil import requests import re import timerequests.packages.urllib3.disable_warnings()#通过url请求接口，获取返回数据def getPage(url,headers):try:response = requests.get(url=url, headers=headers, verify=False)response.encoding = ‘utf-8‘if response.status_code == 200:#print (response.text)return response.textelse:print(‘请求异常：...

Python爬取博客园新闻代码【代码】【图】

核心模块：requests ：安装指令 pip3 install requestsBeautifulSoup :安装指令 pip3 install beautifulsoup4代码：import requests import bs4 import osresponse=requests.get(‘https://news.cnblogs.com/‘) response.encoding=response.apparent_encodingfrom bs4 import BeautifulSoup soup=bs4.BeautifulSoup(response.text,features=‘html.parser‘) newslist=soup.find_all(‘div‘,class_="content") #print(newslist)f...

利用Python爬取豆瓣电影【代码】【图】

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影:我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE　　有3个字段是非常重要的:　　　　1.sort=T　　　　2.range=0,10　　　　3.tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%9...

【学习笔记】python爬取百度真实url【代码】【图】

今天跑个脚本需要一堆测试的url，，，挨个找复制粘贴肯定不是程序员的风格，so，还是写个脚本吧。环境：python2.7 编辑器：sublime text 3 一、分析一下首先非常感谢百度大佬的url分类非常整齐，都在一个类下 650) this.width=650;" src="/upload/getfiles/default/2022/11/5/20221105094416540.jpg" title="QQ截图20170908143211.png" /> 即c-showurl,所以只要根据css爬取链接就可以，...

Python爬取内涵段子里的段子【代码】【图】

环境：Python3.6#!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛'import requests import jsondef get_json_dic(url): global dict_json response = requests.get(url=url) json_response = response.content.decode() #获取r的文本就是一个json字符串 dict_json = json.loads(json_response) # 将json字符串转换成dic字典对象 return dict_jsondef get_joke(dict_json): ...

2018-7-12python爬取历史天气数据【代码】

2018-7-12python爬取历史天气数据python 爬虫天气数据需求需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。from bs4 import BeautifulSoup as bsp import urllib,http.cookiejar,re,time #对excel的操作，可以添加sheetimport xlwt #拼接两个csvimport glob import time# 做好cookie管理工作 cookie=http.cookiejar.CookieJar() # 创建空CookieJar cj=urllib.r...

Python爬取电影天堂指定电视剧或者电影【代码】【图】

1.分析搜索请求一位高人曾经说过，想爬取数据，要先分析网站今天我们爬取电影天堂，有好看的美剧我在上面都能找到，算是很全了。这个网站的广告出奇的多，用过都知道，点一下搜索就会弹出个窗口，伴随着滑稽的音乐，贪玩蓝月？通过python，我们可以避免广告，直接拿到我们要的东西我用的是火狐浏览器，按F12打开开发者工具，选择网络按照正常的操作顺序，其实python就是在模拟人进行一些网页操作，我们只不过通过python解放自己的双...

毕设一:python 爬取苏宁的商品评论【代码】【图】

毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_poolua:fake_useragent 1# 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.com/recommend-portal/recommendv2/biz.jsonp?parameter=%E5%8D%8E%E4%B8%BA&sceneIds=2-1&count=103 4# 评价 5 https://review.suning.com/ajax/cluster_review_lists/general-30259269-000000010748901691-0000000000-total-1-d...

Python3爬取Wallhaven.cc图片【代码】【图】

https://wallhaven.cc/ 上有很多优秀壁纸图片，网站访问速度有点慢，还是抓下来看比较方便。1、安装python32、pip安装requests、lxml3、运行代码 # -*- coding: utf-8 -*- #wallhaven爬取import os from urllib.parse import urlencode import time from requests import codes import random import requests from lxml import etree#定义创建文件路径函数，将下载的文件存储到该路径def CreatePath(filepath):ifnot os.path.exi...

第一篇博客（python爬取小故事网并写入mysql）【代码】

前言：　　这是一篇来自整理EVERNOTE的笔记所产生的小博客，实现功能主要为用广度优先算法爬取小故事网，爬满100个链接并写入mysql，虽然CS作为双学位已经修习了三年多了，但不仅理论知识一般，动手能力也很差，在学习的空余时间前前后后DEBUG了很多次，下面给出源代码及所遇到的BUG。　　本博客参照代码及PROJECT来源：http://kexue.fm/archives/4385/源代码： 1import requests as rq2import re3import codecs4import queue5impo...

python爬取商品信息【代码】

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。需求：某网的商品信息，包括商品名，市场价和售价工具：python2.7.8，urllib2，re#coding = utf-8import urllib2 import repath = "aaa.txt" f = open(path, ‘w+‘)for i in range(4980, 4991):print i# get webpage contenturl = "http://*" + str(i) + "*"page = urllib2.urlopen(url).read()# Regular matchingmatchTitle = re.search(r‘...

python爬图【代码】

闲的无事，看着知乎里种种python优点，按捺不住，装起python3.4。网上找了点爬行图片的代码，修改至兼容3.4，成功爬行指定url所有jpg图片，代码段如下：import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object):def__init__(self, url):self.url = urldef parse(self,content):pattern = ‘src="(http://.*\.jpg)\s*"‘matchs = re....

python爬取网页图片并保存到本地【代码】【图】

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return html.text将其先导入文本文件观察发现图片的地址所在...

Python爬取淘宝店铺和评论【代码】

1 安装开发需要的一些库(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:...

Python 爬取qqmusic音乐url并批量下载【代码】

qqmusic上的音乐还是不少的，有些时候想要下载好听的音乐，但有每次在网页下载都是烦人的登录什么的。于是，来了个qqmusic的爬虫。　　至少我觉得for循环爬虫，最核心的应该就是找到待爬元素所在url吧。下面开始找吧（讲的不对不要笑我）#寻找url：　　这个url可不想其他的网站那么好找。把我给累得不轻，关键是数据多，从那么多数据里面挑出有用的数据，最后组合为music真正的music。昨天做的时候整理的几个中间url：#url1：https...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 用python爬取猫眼电影排行

用python爬取猫眼电影排行

内容导读

内容图文

网页分析

爬取网页

解析页面

分页爬取

完整代码

参考书目《Python3网络爬虫开发实践》崔庆才

内容总结

内容备注

内容手机端

【用python爬取猫眼电影排行】教程文章相关的互联网学习教程文章

python爬取网业信息案例【代码】【图】

Python爬取博客园新闻代码【代码】【图】

利用Python爬取豆瓣电影【代码】【图】

【学习笔记】python爬取百度真实url【代码】【图】

Python爬取内涵段子里的段子【代码】【图】

2018-7-12python爬取历史天气数据【代码】

Python爬取电影天堂指定电视剧或者电影【代码】【图】

毕设一:python 爬取苏宁的商品评论【代码】【图】

Python3爬取Wallhaven.cc图片【代码】【图】

第一篇博客（python爬取小故事网并写入mysql）【代码】

python爬取商品信息【代码】

python爬图【代码】

python爬取网页图片并保存到本地【代码】【图】

Python爬取淘宝店铺和评论【代码】

Python 爬取qqmusic音乐url并批量下载【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程