selenium模块在爬虫中的应用

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了selenium模块在爬虫中的应用，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1668字，纯文字阅读大概需要3分钟。

内容图文

1. 相关概念

1. selenium模块

　　是一个基于浏览器自动化的模块

2. 与爬虫之间的关联

　　便捷的捕获到动态加载到的数据（可见即可得）

　　实现模拟登陆

3.环境安装

pip3 install selenium

简单演示

            from selenium import webdriver
from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的
driver = webdriver.Chrome(r‘chromedriver.exe‘)

# 用get打开百度页面
driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击
driver.find_elements_by_link_text(‘设置‘)[0].click()
sleep(2)

# 打开设置后找到“搜索设置”选项，设置为每页显示50条
driver.find_elements_by_link_text(‘搜索设置‘)[0].click()
sleep(2)

# 选中每页显示50条
m = driver.find_element_by_id(‘nr‘)
sleep(2)
m.find_element_by_xpath(‘//*[@id="nr"]/option[3]‘).click()
m.find_element_by_xpath(‘.//option[3]‘).click()
sleep(2)

# 点击保存设置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()driver.switch_to_alert().accept()
sleep(2)

# 找到百度的输入框，并输入 美女
driver.find_element_by_id(‘kw‘).send_keys(‘美女‘)
sleep(2)

# 点击搜索按钮
driver.find_element_by_id(‘su‘).click()
sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面
driver.find_elements_by_link_text(‘美女_百度图片‘)[0].click()
sleep(3)

# 关闭浏览器
driver.quit()

2.基本使用

　　准备好某一款浏览器的驱动程序：http://chromedriver.storage.googleapis.com/index.html

版本的映射关系：https://blog.csdn.net/huilan_same/article/details/51896672

1.实例化某一款浏览器对象

            from time import sleep
from selenium import webdriver

bro = webdriver.Chrome(executable_path="chromedriver.exe")

# 录入路由地址
bro.get("https://www:jd.com/")
sleep(2)

# 进行标签定位
search_input = bro.find_element_by_id("key")

# 向搜索框中录入关键词
search_input.send_keys("苹果")

# 定位搜索按钮
btn = bro.find_element_by_xpath(‘//*[@id="search"]/div/div[2]/button‘)

# 点击搜索按钮btn.click()
sleep(2)

# 退出访问
bro.quit()

原文：https://www.cnblogs.com/zangyue/p/12203214.html

内容总结

以上是互联网集市为您收集整理的selenium模块在爬虫中的应用全部内容，希望文章能够帮你解决selenium模块在爬虫中的应用所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1294018.html

来源：【匿名】

【上一篇】Beautiful Soup第三方爬虫插件【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【selenium模块在爬虫中的应用】教程文章相关的互联网学习教程文章

1. 相关概念1. selenium模块　　是一个基于浏览器自动化的模块2. 与爬虫之间的关联　　便捷的捕获到动态加载到的数据（可见即可得）　　实现模拟登陆3.环境安装pip3 install selenium简单演示from selenium import webdriver from time import sleep# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的 driver = webdriver.Chrome(r‘chromedriver.exe‘)# 用get打开百度页面 driver.get("http://www.baidu.com")#...

Python爬虫 selenium【代码】

库的安装pip3 install selenium声明浏览器对象from selenium import webdriverbrowser = webdriver.Chrome() browser = webdriver.Firefox() browser = webdriver.Edge() browser = webdriver.PhantomJS() browser = webdriver.Safari()访问页面from selenium import webdriverbrowser = webdriver.Chrome() browser.get(‘https://www.taobao.com‘) print(browser.page_source) browser.close()查找元素查找单个元素的 element* ...

Python爬虫周记之案例篇——基金净值Selenium动态爬虫【代码】【图】

在成功完成基金净值爬虫的爬虫后，简单了解爬虫的一些原理以后，心中不免产生一点困惑——为什么我们不能直接通过Request获取网页的源代码，而是通过查找相关的js文件来爬取数据呢？有时候我们在用requests抓取页面的时候，得到的结果可能和浏览器中看到的不一样：浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据...

爬虫之selenium【代码】

selenium介绍selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器1. 环境安装下载安装selenium：pip install selenium下载浏览器驱动程序： http://chromedriver.storage.googleapis.com/index.html查看驱动和浏览器版本的映射关系： http:/...

Ubuntu下的Selenium爬虫的配置【代码】

在服务器Ubuntu系统上跑爬虫，爬虫是基于Selenium写的，遇到好几个问题，现在这里记录一下。1. 安装环境　　阿里云，Ubuntu16.04，因为没有界面，所以远程命令行操作。爬虫是基于Selenium写的，需要安装Chrome浏览器和Chromedriver。　　1.1安装Chrome和Chromedriver　　　　Chrome直接去官网下载，安装稳定版，https://www.ubuntuupdates.org/ppa/google_chrome?dist=stable，下载deb格式的安装包，上传到服务器，用命令行安装：　...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

本文主要是自己的在线代码笔记。在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。 PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援，像是生化学与细胞生物学。 PubMed是因特网...

使用selenium做简单爬虫的实例

selenium 是一个Web自动化测试的软件包，可以用于自动测试Web应用，也可以用于当作简单的爬虫制作工具，这是一个简单的demo，用于爬取Google APP Store中的一个类别: ?1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

动态网站爬虫Python-selenium-PhantomJS【代码】

from selenium import webdriver #from selenium.webdriver.common.proxy import Proxyfrom selenium.webdriver.common.proxy import ProxyType from selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdcap = dict(DesiredCapabilities.PHANTOMJS) dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (iPod; U; CPU iPhone OS 2_1 like Mac OS X; ja-jp) AppleWebKit/525.18.1 (KHTML, like Ge...

爬虫——Selenium与PhantomJS【代码】【图】

SeleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同的是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。Selenium可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。Selenium自己不带浏览器，不支持浏览器的功能，它需要与第三方...

[python爬虫] Selenium切换窗口句柄及调用Chrome浏览器【图】

因为我的博客是根据我每个阶段自己做的事情而写的，所以前言可能有点跑题，但它更有利于让我回忆这个阶段自己的所作所为。这篇文章主要介绍Selenium爬虫获取当前窗口句柄、切换窗口句柄以及调用Chrome浏览器几个知识点，其中获取当前句柄的方法是非常重要的一个知识点，只有真正遇到的时候才能体会到它的强大。最近课程比较多，写博客的内容也比较杂，包括网站搭建、HTML设计、计算机图形学、Python数据挖掘、Flash动画等。...

爬虫-selenium实现验证码自动登录（14）【代码】

import time from io import BytesIO import randomimport requests from selenium import webdriver from selenium.webdriver import ActionChains from PIL import Imageurl = "https://www.douban.com/" browser = webdriver.Chrome(executable_path="E:/爬虫0基础入门/chromedriver_win32/chromedriver.exe")#2. 点击元素显示出有缺口的图片并下载 #3. 对比两张图片找出缺口的移动像素 #4. 拖动元素 url = "https://passport.b...

selenium模块跳过用户名密码验证码输入，加载浏览器标签和cookie，进行翻页爬虫多页动态加载的数据（js)【代码】

能解决登陆一次后，之后不需要二次登陆的动态加载数据，网页保存的cookie和标签，加入到selenium自动化测试浏览器中 1from selenium import webdriver2import re3from time import sleep4 5def willbill():6‘‘‘点击翻页，获取下一页数据，进行正则匹配‘‘‘ 7 driver.find_element_by_xpath(‘//*[@id="upPage"]/li[5]/a‘).click()8 sleep(3)9 data = driver.page_source 10 results_list = ‘class="limingc...

首页 / 爬虫 / selenium模块在爬虫中的应用