首页 / 爬虫 / [Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4585字，纯文字阅读大概需要7分钟。

内容图文

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：

#coding=utf-8
import os
import re
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.action_chains import ActionChains
import IniFile
class IEDriverCrawler:
    def __init__(self):
        #通过配置文件获取IEDriverServer.exe路径
        configfile = os.path.join(os.getcwd(),‘config.conf‘)
        cf = IniFile.ConfigFile(configfile)
        IEDriverServer = cf.GetValue("section", "IEDriverServer")
        #每抓取一页数据延迟的时间，单位为秒，默认为5秒
        self.pageDelay = 5
        pageInteralDelay = cf.GetValue("section", "pageInteralDelay")
        if pageInteralDelay:
            self.pageDelay = int(pageInteralDelay)
        os.environ["webdriver.ie.driver"] = IEDriverServer
        self.driver = webdriver.Ie(IEDriverServer)

    def CatchData(self,id,firstUrl,nextUrl,restUrl):
        ‘‘‘
        抓取数据
        :param id: 要获取元素标签的ID
        :param firstUrl: 首页Url
        :param nextUrl: 下一页URL
        :param restUrl: 下一页URL的组成部分
        :return:
        ‘‘‘
        #加载首页
        self.driver.get(firstUrl)
        #打印标题
        print self.driver.title
        # id = "J_albumFlowCon"
        element = self.driver.find_element_by_id(id)
        txt = element.text.encode(‘utf8‘)
        #打印获取的信息
        print txt
        print ‘ ‘
        time.sleep(20)  # 延迟20秒,
        #由于有多页数据，为了测试，只取出几页数据
        for i in range(2, 4):
            print ‘ ‘
            time.sleep(20)  # 延迟20秒,
            url = nextUrl + str(i) + restUrl
            self.driver.get(url)
            element = self.driver.find_element_by_id(id)
            txt = element.text.encode(‘utf8‘)
            print txt
        self.driver.close()
        self.driver.quit()
    def CatchDatabyClickNextButton(self,id,firstUrl):
        ‘‘‘
        抓取数据
        :param id: 要获取元素标签的ID
        :param firstUrl: 首页Url
        :return:
        ‘‘‘
        start = time.clock()
        #加载首页
        self.driver.get(firstUrl)
        #打印标题
        print self.driver.title
        # id = "J_ItemList"
        firstPage = self.driver.find_element_by_id(id)
        txt = firstPage.text.encode(‘utf8‘)
        self.printTxt(1,txt)
        #获取总页数
        name = ‘filterPageForm‘
        totalPageElement = self.driver.find_element_by_name(name)
        txt = totalPageElement.text.encode(‘utf8‘)#ui-page-next
        pattern = re.compile(r‘\d+‘)
        flist  = re.findall(pattern, txt)
        pageCount = 1
        if flist and len(flist)>0:
            pageCount = int(flist[0])
        if pageCount > 1:
            pageCount = 10 #先爬三页
            for index in range(2,pageCount + 1):
                time.sleep(self.pageDelay) #延迟五秒
                nextElement = self.driver.find_element_by_xpath("//a[@class=‘ui-page-next‘]")
                nextUrl = nextElement.get_attribute(‘href‘)
                self.driver.get(nextUrl)
                # ActionChains(self.driver).click(element)
                dataElement = self.driver.find_element_by_id(id)
                txt = dataElement.text.encode(‘utf8‘)  # ui-page-next
                print ‘ ‘
                self.printTxt(index, txt)
        self.driver.close()
        self.driver.quit()
        end = time.clock()
        print ‘ ‘
        print "抓取每页数据后延迟 %d 秒" % self.pageDelay
        print "总共抓取了 %d页数据" % pageCount
        print "整个过程用时间: %f 秒" % (end - start)
    def printTxt(self,pageIndex,stringTxt):
        ‘‘‘
        打印抓取的每页数据
        :param pageIndex:页数
        :param stringTxt:每页抓取的数据
        :return:
        ‘‘‘
        if stringTxt.find(‘￥‘) > -1:
            itemList = stringTxt.split(‘￥‘)
            print ‘第‘ + str(pageIndex) + ‘页数据‘
            print ‘ ‘
            for item in itemList:
                if len(item) > 0:
                    its = item.split(‘\n‘)
                    if len(its)>=4:
                        print ‘单价：        ￥%s‘ % its[0]
                        print ‘品牌：        %s‘ % its[1]
                        print ‘销售店铺名称： %s‘ % its[2]
                        print ‘成交量：      %s‘ % its[3]
                        print ‘ ‘

#测试抓取淘宝数据
# obj = IEDriverCrawler()
# firstUrl = "https://ai.taobao.com/search/index.htm?pid=mm_26632323_6762370_25910879&unid=&source_id=search&key=%E6%89%8B%E6%9C%BA&b=sousuo_ssk&clk1=&prepvid=200_11.251.246.148_396_1490081427029&spm=a231o.7712113%2Fa.a3342.1"
# nextUrl=‘https://ai.taobao.com/search/index.htm?pid=mm_26632323_6762370_25910879&unid=&source_id=search&key=%E6%89%8B%E6%9C%BA&b=sousuo_ssk&clk1=&prepvid=200_11.251.246.157_19825_1490081412211&spm=a231o.7076277.1998559105.1&page=‘
# # url=‘https://ai.taobao.com/search/index.htm?pid=mm_26632323_6762370_25910879&unid=&source_id=search&key=%E6%89%8B%E6%9C%BA&b=sousuo_ssk&clk1=&prepvid=200_11.251.246.148_396_1490081427029&spm=a231o.7712113%2Fa.a3342.1&page=2&pagesize=120‘
# # url=‘https://ai.taobao.com/search/index.htm?pid=mm_26632323_6762370_25910879&unid=&source_id=search&key=%E6%89%8B%E6%9C%BA&b=sousuo_ssk&clk1=&prepvid=200_11.251.246.148_396_1490081427029&spm=a231o.7712113%2Fa.a3342.1&page=3&pagesize=120‘
# restUrl = ‘&pagesize=120‘
# obj.CatchData("J_albumFlowCon",firstUrl,nextUrl,restUrl)
#测试抓取天猫数据
obj = IEDriverCrawler()
firstUrl = "https://list.tmall.com/search_product.htm?q=%CA%D6%BB%FA&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&from=mallfp..pc_1_searchbutton"
obj.CatchDatabyClickNextButton("J_ItemList",firstUrl)
本文章仅仅作为交流。

原文：http://www.cnblogs.com/shaosks/p/6604152.html

内容总结

以上是互联网集市为您收集整理的[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据全部内容，希望文章能够帮你解决[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1197250.html

来源：【匿名】

【上一篇】爬虫的工作原理【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据】教程文章相关的互联网学习教程文章

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

本文主要是自己的在线代码笔记。在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。 PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援，像是生化学与细胞生物学。 PubMed是因特网...

python爬虫中图形验证码的处理【代码】【图】

使用python爬虫自动登录时，遇到需要输入图形验证码的情况，一个比较简单的处理方法是使用打码平台识别验证码。使用过两个打码平台，打码兔和若快，若快的价格更便宜，识别率相当。若快需要注册两个帐号：开发者帐号与用户帐号，用户帐号用于发送识别请求，开发者帐号可以注册软件id，并于识别请求进行绑定，可以参与识别收入的分成返现。获取图形验证码目前发现的有两种方式：0x01 在抓包中可以直接获得图片：发送get请求可以直接...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之爬虫（三） Urllib库的基本使用【代码】【图】

官方文档地址：https://docs.python.org/3/library/urllib.html什么是UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)url参数的使用先写一个简单...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

python爬虫及结巴分词《攀登者》影评分析【代码】

《攀登者》影评爬取及分析0、项目结构其中simkai.ttf为字体文件，Windows查看系统自带的字体C:\Windows\Fonts一、爬取豆瓣影评数据# -*- coding: utf-8 -*- """爬取豆瓣影评""" import requests from lxml import etree import timeurl = "https://movie.douban.com/subject/30413052/comments?start=%d&limit=20&sort=new_score&status=P"#请求头 headers = {'Host': 'movie.douban.com', 'User-Agent': 'Mozilla/5.0 (Windows NT...

Python爬虫进阶二之PySpider框架安装配置【图】

关于首先，在此附上项目的地址，以及官方文档PySpider官方文档安装1. pip首先确保你已经安装了pip，若没有安装，请参照pip安装2. phantomjsPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。安装以上附有官方安装方式，如果你是 Ubuntu 或 ...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

python—爬虫【代码】【图】

1.1 介绍通过过滤和分析HTML代码，实现对文件、图片等资源的获取，一般用到：urllib和urllib2模块正则表达式（re模块）requests模块Scrapy框架urllib库：1）获取web页面2）在远程http服务器上验证3）表单提交（GET和POST）4）异常处理（urllib2.URLError）5）非http协议通信（ftp）获取页面信息：urllib2.urlopen(url,data,timeout)构造Requestreques = URLlib.Request(url,data,headers={})response = urllib2.urlopen(request)re...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

Python爬虫爬取百度贴吧的图片

根据输入的贴吧地址，爬取想要该贴吧的图片，保存到本地文件夹，仅供参考： #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport osimport sysreload(sys)sys.setdefaultencoding("utf-8")#下载图片class GetPic: #页面初始化 def __init__(self,baseUrl,seelz): #base链接地址 self.baseURL = baseUrl #是否只看楼主 self.seeLZ = ‘?seelz=‘ + str(seelz) #self.tool = tool.Tool() #获取页面...

python爬虫代码【代码】

原创python爬虫代码主要用到urllib2、BeautifulSoup模块#encoding=utf-8import re import requests import urllib2 import datetime import MySQLdb from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8")class Splider(object):def__init__(self):print u‘开始爬取内容...‘##用来获取网页源代码def getsource(self,url):headers = {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X...

首页 / 爬虫 / [Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据】教程文章相关的互联网学习教程文章

PYTHON爬虫 - 相关标签

SELENIUM - 相关标签

调用 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程