首页 / PYTHON / Python之使用selenium动态爬取猫眼电影信息并保存MongoDB

Python之使用selenium动态爬取猫眼电影信息并保存MongoDB

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python之使用selenium动态爬取猫眼电影信息并保存MongoDB，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2088字，纯文字阅读大概需要3分钟。

内容图文

本篇博客仅作为学习交流，不可用于商业用途
要使用selenium必须装浏览器驱动，下载一个驱动包，解压放在python的script目录即可

#!/usr/bin/python
# -*- coding: UTF-8 -*-    
# Author: RuiMing Lin
# DateTime: 2021/01/26 17:09
# Description: 使用Selenium动态爬取电影
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import logging
import pymongo

# 定义日志级别
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s: %(message)s')
# 根路径
base_url = 'http://maoyan.com/board/4?offset='
# 总页数
TOTAL_PAGE = 10
# MongoDB配置信息
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'movies'
MONGO_COLLECTION_NAME = 'maoyan'
client = pymongo.MongoClient(MONGO_CONNECTION_STRING)
db = client[MONGO_DB_NAME]
collection = db[MONGO_COLLECTION_NAME]

for i in range(10):
    # 1.使用谷歌浏览器打开猫眼电影网
    index = i * 10
    url = base_url + str(index)  # 拼接url
    browser = webdriver.Chrome()    # 打开谷歌浏览器
    browser.get(url)    # 打开猫眼网
    logging.info('scraping %s ...', url)
    wait = WebDriverWait(browser, timeout=10, poll_frequency=0.5)  # 显示等待
    # 2.解析页面，获得内容
    wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'movie-item-info')))
    divs = browser.find_elements_by_class_name('movie-item-info')
    for div in divs:
        name = div.find_element_by_class_name("name").find_element_by_tag_name("a").get_attribute('title')
        url = div.find_element_by_class_name("name").find_element_by_tag_name("a").get_attribute('href')
        star = div.find_element_by_class_name("star").text
        release_time = div.find_element_by_class_name("releasetime").text
        data_dict = {
            'name': name,
            'url': url,
            'star': star,
            'release_time': release_time
        }
        # 3.保存到MongoDB
        if data_dict is not None:
            collection.update_one({
                'name': data_dict.get('name')
            }, {
                '$set': data_dict
            }, upsert=True)
        else:
            logging.info("save_data fail... because data is none")
    browser.close()

# 4.查看数据
results = collection.find()
for result in results:
    print(result)
print(collection.find().count())

内容总结

以上是互联网集市为您收集整理的Python之使用selenium动态爬取猫眼电影信息并保存MongoDB全部内容，希望文章能够帮你解决Python之使用selenium动态爬取猫眼电影信息并保存MongoDB所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/864548.html

来源：【匿名】

【上一篇】【mysql-03】python连接数据库及使用【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python之使用selenium动态爬取猫眼电影信息并保存MongoDB】教程文章相关的互联网学习教程文章

查看python,selenium版本号

最近在学习python+selenium，脚本范例上很多时候要看python是2.X还是3.X的版本脑子又不好使，使用过的命令常常记不住需要找度娘，今天就记录下来一、查看python版本号在CMD窗口中输入：方法1：python -V 方法2：python --version 二、查看selenium版本号方法1：在CMD窗口中输入python：>>> import selenium>>> help(selenium)方法2：在CMD窗口中直接输入：pip show selenium原文：https://www.cnblogs.com/shanliguniang/p/1072181...

windows7 python3.63使用selenium+webdriver 实现自动登录使用过程【代码】【图】

本人用的是python3.63版本这里会讲到安装时所遇到的问题这里是根据火狐浏览器来操作的1、首先安装selenium 在 windows 的 cmd窗口通过pip 没安装pip的小伙伴自行去搜搜相关pip安装方法pip install selenium安装成功后测试一下是否能正常运行打开百度输入关键字并且搜索from selenium import webdriver import time Drivers=webdriver.Firefox()#声明火狐浏览器驱动对象 try:Drivers.get(‘https://www.baidu.com‘...

Selenium chrome配置代理Python版【代码】

环境: windows 7 + Python 3.5.2 + Selenium 3.4.2 + Chrome Driver 2.29 + Chrome 58.0.3029.110 (64-bit)Selenium官方给的Firefox代理配置方式并不起效，也没看到合适的配置方式，对于Chrome Selenium官方没有告知如何配置，但以下两种方式是有效的：1. 连接无用户名密码认证的代理chromeOptions = webdriver.ChromeOptions() chromeOptions.add_argument(‘--proxy-server=http://ip:port‘) driver = webdriver.Chrome(chrom...

Python+Selenium+Unittest框架使用——Selenium——模拟操作浏览器（三）【代码】

1.浏览器大小的控制Set_window_size()是控制浏览器大小Maximize_window()浏览器全屏显示from selenium import webdriver 　　　#导入selenium的webdriver包from time import sleep driver = webdriver.Firefox() driver.get("https://www.baidu.com") sleep(10) 　　　　　　　　　　　　　　　　#等待10秒钟 driver.set_window_size(500,500) sleep(10) driver.maximize_window()2.浏览...

python爬虫 Selenium库学习【代码】

一、自动化测试工具，支持多种浏览器，解决JS渲染问题二、安装pip3 install Selenium三、操作介绍（因为是学习别人的课程为了尊重知识产权，部分代码就不显示了）1驱动浏览器browser = webdriver.Chrome()try: 　　　browser.get(‘www.sina.com‘)#上网 2查找元素一种方法：browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_id()browser.find_element_by_xpath()browser.find_elemen...

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。headers = {‘User-A...

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

本章节主要是封装selenium库的一些基础操作方法，如：打开网页、定位元素、截图等，这里是最基本最底层操作浏览器的方法，详情如下：一、basePage.py# _*_ coding:utf-8 _*_import time,os from selenium.webdriver.support.ui import WebDriverWait #导入显示等待等待from selenium.webdriver.support import expected_conditions as EC #导入判断方法from Public import getPathInfo,loglog_info =log.logger ...

mac python selenium Chromedriver配置【代码】

安装selenium pip install selenium 下载Chromedriver http://npm.taobao.org/mirrors/chromedriver/将Chromedriver放在/usr/local/bin 最终代码 from selenium import webdriver import timedriver = webdriver.Chrome() driver.get("http://www.baidu.com") time.sleep(3) driver.quit() 原文：https://www.cnblogs.com/django-start/p/9692028.html

Python Selenium系列学习

以下记录刚接触Python Selenium操作Web UI的学习问题：1.python selenium三种等待方式：　　①强制等待：time.sleep(value):设置等待最简单的方法就是强制等待，其实就是time.sleep()方法，不管它什么情况，让程序暂停运行一定时间，时间过后继续运行；缺点时不智能，设置的时间太短，元素还没有加载出来，那照样会报错；设置的时间太长，则会浪费时间，不要小瞧每次几秒的时间，case多了，代码量大了，很多个几秒就会影响整体的运...

python selenium 环境开发新手搭建指南【代码】【图】

一.所需软件: 1. python2.7.13 2. pycharm 3. selenium 4. chromedriver 5. chrome浏览器所有软件下载地址： python3.6 : https://www.python.org/ftp/python/3.6.1/python-3.6.1.exepycharm 社区版: https://download.jetbrains.com/python/pycharm-community-2017.1.5.exeselenium: 通过pip 安装（后续）chromedriver2.30 版本: http://npm.taobao.org/mirrors/chromedriver/2.30/chromedriver_win32.zipchrome浏览器: http://s...

在Python中用Selenium执行JavaScript【代码】

Selenium自己不带浏览器, 需要与第三方浏览器结合在一起使用.例如在Firefox上运行Selenium.PhantomJS是一个"无头"浏览器. 它会把网站加载到内存并执行页面上的JavaScript, 但是它不会向用户展示网页的图形界面. 把Selenium和PhantomJS结合在一起, 就可以运行一个非常强大的网络爬虫了, 可以处理cookie, JavaScript,header, 以及任何你需要做的事.Selenium可以从PyPI网站(https://pypi.python.org/simple/selenium)下载Selenium库, ...

博客园登录--selenium+python【代码】

# coding:utf-8from selenium import webdriver import unittestclass CnBlog(unittest.TestCase):def setUp(self):self.driver=webdriver.Firefox()self.url="https://passport.cnblogs.com/user/signin"self.driver.get(self.url)self.driver.maximize_window()self.driver.implicitly_wait(10)def cnblog_login(self,username,password):self.driver.find_element_by_id("input1").clear()self.driver.find_element_by_id("inpu...

python selenium 爬虫自动化工作脚本【代码】

#coding= utf-8‘‘‘内部监控应用平台自动化工作脚本难点 1，由于数据量过于庞大，每次查询翻页可能出错需要检查并且重新点击 2，网页的解析，id class等属性是动态变化的。使用xpath和css结合使用 3，涉及到selenium的点击，悬停，输入，截图，三层try块的容错处理 4，涉及到excel的循环写入，一个文件写11张表格，配合selen‘‘‘ from time import sleep import xlrd, xlwt,os, datetime from lxml import etree from xlut...

python selenium-webdriver 通过cookie登陆（十一）【代码】【图】

上节介绍了浏览器的常用方法，涉及到了cookie的使用，本节介绍一下如何利用cookie进行登陆系统，这里使用到了request模块，我们首先利用request模块，请求登陆地址进行登陆，登陆成功以后获取cookie值，然后再通过add_cookie添加到浏览器，使系统处于登陆状态。这里需要注意的是request请求返回的cookie的格式不能直接传入add_cookie方法，所以这里需要进行转换。#这里需要注意区别，按住格式进行转换 #request 请求返回cookie的格...

selenium+python环境搭建【图】

1、JAVA环境，配置相应环境变量。查看是否配置成功如下：2、python环境，配置相应环境变量。包括python和Python/Scripts两个路径查看是否配置成功如下：3、安装selenium　　通过pip安装，python路径下输入:py -2 -m pip install selenium安装4、下载浏览器，且需要安装相应webdriver　　如下载火狐浏览器 http://www.firefox.com.cn/，需下载gectkodriver https://github.com/mozilla/geckodriver/releases/　　如下载谷歌浏览器...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Python之使用selenium动态爬取猫眼电影信息并保存MongoDB

Python之使用selenium动态爬取猫眼电影信息并保存MongoDB

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python之使用selenium动态爬取猫眼电影信息并保存MongoDB】教程文章相关的互联网学习教程文章

查看python,selenium版本号

windows7 python3.63使用selenium+webdriver 实现自动登录使用过程【代码】【图】

Selenium chrome配置代理Python版【代码】

Python+Selenium+Unittest框架使用——Selenium——模拟操作浏览器（三）【代码】

python爬虫 Selenium库学习【代码】

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

mac python selenium Chromedriver配置【代码】

Python Selenium系列学习

python selenium 环境开发新手搭建指南【代码】【图】

在Python中用Selenium执行JavaScript【代码】

博客园登录--selenium+python【代码】

python selenium 爬虫自动化工作脚本【代码】

python selenium-webdriver 通过cookie登陆（十一）【代码】【图】

selenium+python环境搭建【图】

MONGODB - 相关标签

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程