首页 / 爬虫 / python 使用 selenium爬虫知乎回答并保存为csv文件

python 使用 selenium爬虫知乎回答并保存为csv文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python 使用 selenium爬虫知乎回答并保存为csv文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3243字，纯文字阅读大概需要5分钟。

内容图文

实现效果

python 使用 selenium爬虫知乎回答并保存为csv文件 - 文章图片

关于selenium库

用途：

模拟人工打开浏览器并进行一些操作，类似于手机上的连点器和脚本，可以有效的解决弹窗类的反扒机制。

使用：

pip 安装，下载浏览器驱动，给驱动配置环境，重启pycharm测试。

关于panda库

用途：

将字典转换成dataframe并更以csv的形式导出。

使用：

pip 安装即可。

代码

from selenium import webdriver  # 从selenium导入webdriver
from selenium.webdriver.common.by import By  # 内置定位器策略集
from selenium.webdriver.support.wait import WebDriverWait  # 用于实例化一个Driver的显式等待
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from pandas.core.frame import DataFrame

option = webdriver.ChromeOptions()
option.add_argument("headless")
driver = webdriver.Chrome()  # chrome_options=option  这个参数设置之后可以隐藏浏览器
driver.get('https://www.zhihu.com/question/284206141')  # 修改这里的地址


def waitFun():
    js = """
    let equalNum = 0;
    window.checkBottom = false;
    window.height = 0;
    window.intervalId = setInterval(()=>{
        let currentHeight = document.body.scrollHeight;
        if(currentHeight === window.height){
            equalNum++;
            if(equalNum === 2){
                clearInterval(window.intervalId);
                window.checkBottom = true;
            }
        }else{
            window.height = currentHeight;
            window.scrollTo(0,window.height);
            window.scrollTo(0,window.height-1000);
        }
    },1500)"""
    # 这个暂停一下是因为要等待页面将下面的内容加载出,这个 1500 可以根据自己的网络快慢进行适当的调节
    # 这里需要往上移动一下，因为不往上移动一下发现不会加载。
    driver.execute_script(js)


# selenium 可以获取 浏览器中 js 的变量。调用的js return
def getHeight(nice):
    # 这里获取 js 中的 checkBottom 变量，作为到底部时进行停止。
    js = """
    return window.checkBottom;
    """
    return driver.execute_script(js)


try:
    # 先触发登陆弹窗。
    WebDriverWait(driver, 40, 1).until(EC.presence_of_all_elements_located(
        (By.CLASS_NAME, 'Modal-backdrop')), waitFun())

    # 点击空白关闭登陆窗口
    ac = driver.find_element_by_xpath('//body/div[4]/div[1]/div[1]/div[1]/div[2]/button[1]/*[1]')
    ActionChains(driver).move_to_element(ac).double_click(ac).perform()

    # 当滚动到底部时
    WebDriverWait(driver, 40, 3).until(getHeight, waitFun())

    # 获取回答
    answerElementArr = driver.find_elements_by_css_selector('.RichContent-inner')  # .List-item

    # 获取id
    idElementArr = driver.find_elements_by_css_selector('div.AuthorInfo-head > span.UserLink')  # .List-item

    # 获取日期
    dateElementArr = driver.find_elements_by_css_selector('.ContentItem-time')  # .List-item

    # 获取标题
    title = driver.find_element_by_class_name('QuestionHeader-title')
    filename = title.text

    # 创建list
    a = []
    b = []
    c = []

    # id写入
    for uid in idElementArr:
        a.append(uid.text)
    # 答案写入
    for answer in answerElementArr:
        b.append(answer.text)

    # date写入
    for date in dateElementArr:
        c.append(date.text)
    # 将列表转换成字典
    d = {"id": a, "answer": b, "date": c}
    # 创建 Dataframe
    dateframe = DataFrame(d)

    # 到出 csv文件
    dateframe.to_csv("./{}.csv".format(title.text),index=False)
    print(len(answerElementArr))
    print(len(idElementArr))
    print(len(dateElementArr))
    print('爬取问题 ' + title.text + str(len(answerElementArr)) + ' 条，存入到csv文件中')

finally:
    driver.close()  # close the driver

这套代码是在 python 使用 selenium 爬虫知乎的基础上进行了完善，将自动关闭登陆窗的机制改为xpath定位元素双击，然后自动向下滑动，并将结果以csv的形式写入方便以后进行数据处理。

内容总结

以上是互联网集市为您收集整理的python 使用 selenium爬虫知乎回答并保存为csv文件全部内容，希望文章能够帮你解决python 使用 selenium爬虫知乎回答并保存为csv文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/613468.html

来源：【匿名】

【上一篇】第八课：urllib库基本使用-(崔庆才_Python3爬虫入门到精通课程视频 34课)总结【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python 使用 selenium爬虫知乎回答并保存为csv文件】教程文章相关的互联网学习教程文章

Selenium FF WebDriver 遍历所有链接（另类爬虫）【代码】【图】

请看这个页面，我想要找到某个公告的内容，必须一个一个打开链接，尼玛好多啊。于是，我机智的使用selenium打开每一个链接，然后把公告内容写入txt那需要做一下步奏1.依次打开一个公告2.切换focus到新窗口，找到公告内容，写到txt3.关闭该窗口4.切换到主窗口5.当前页面遍历完，点击下一页6.重复步奏1 由于下一页是一个很好用的flag，就可以当做循环条件，因为最后一页没有下一页的element接下来要找到相关的的xpath列表数目： coun...

使用selenium实现简单网络爬虫抓取MM图片【代码】

撸主听说有个网站叫他趣，里面有个社区，其中有一项叫他趣girl，撸主点进去看了下，还真不错啊，图文并茂，宅男们自己去看看就知道啦~　　接下来当然就是爬取这些妹子的图片啦，不仅仅是图片，撸主发现里面的对话也很有意思，于是把对话也一并抓取下来好了。　　那么问题来了，用什么工具呢？在之前的练习中已经用过urllib2，正则表达式匹配实在麻烦，这次来点稍微高级的，试试selenium；　　selenium是什么？其实它是一个web自动化...

python爬虫 Selenium库学习【代码】

一、自动化测试工具，支持多种浏览器，解决JS渲染问题二、安装pip3 install Selenium三、操作介绍（因为是学习别人的课程为了尊重知识产权，部分代码就不显示了）1驱动浏览器browser = webdriver.Chrome()try: 　　　browser.get(‘www.sina.com‘)#上网 2查找元素一种方法：browser.find_element_by_name()browser.find_element_by_class_name()browser.find_element_by_id()browser.find_element_by_xpath()browser.find_elemen...

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

前几天有位微信读者问我一个爬虫的问题，就是在爬去百度贴吧首页的热门动态下面的图片的时候，爬取的图片总是爬取不完整，比首页看到的少。原因他也大概分析了下，就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。分析他的代码比较简单，主要有以下的步骤：使用BeautifulSoup库，打开百度贴吧的首页地址，再解析得到id为new_list标签底下的img标签，最后将img标签的图片保存下来。headers = {‘User-A...

python selenium 爬虫自动化工作脚本【代码】

#coding= utf-8‘‘‘内部监控应用平台自动化工作脚本难点 1，由于数据量过于庞大，每次查询翻页可能出错需要检查并且重新点击 2，网页的解析，id class等属性是动态变化的。使用xpath和css结合使用 3，涉及到selenium的点击，悬停，输入，截图，三层try块的容错处理 4，涉及到excel的循环写入，一个文件写11张表格，配合selen‘‘‘ from time import sleep import xlrd, xlwt,os, datetime from lxml import etree from xlut...

selenium模块在爬虫中的应用【代码】

1. 相关概念1. selenium模块　　是一个基于浏览器自动化的模块2. 与爬虫之间的关联　　便捷的捕获到动态加载到的数据（可见即可得）　　实现模拟登陆3.环境安装pip3 install selenium简单演示from selenium import webdriver from time import sleep# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的 driver = webdriver.Chrome(r‘chromedriver.exe‘)# 用get打开百度页面 driver.get("http://www.baidu.com")#...

Python爬虫 selenium【代码】

库的安装pip3 install selenium声明浏览器对象from selenium import webdriverbrowser = webdriver.Chrome() browser = webdriver.Firefox() browser = webdriver.Edge() browser = webdriver.PhantomJS() browser = webdriver.Safari()访问页面from selenium import webdriverbrowser = webdriver.Chrome() browser.get(‘https://www.taobao.com‘) print(browser.page_source) browser.close()查找元素查找单个元素的 element* ...

Python爬虫周记之案例篇——基金净值Selenium动态爬虫【代码】【图】

在成功完成基金净值爬虫的爬虫后，简单了解爬虫的一些原理以后，心中不免产生一点困惑——为什么我们不能直接通过Request获取网页的源代码，而是通过查找相关的js文件来爬取数据呢？有时候我们在用requests抓取页面的时候，得到的结果可能和浏览器中看到的不一样：浏览器中可以看到正常显示的页面数据，但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据...

爬虫之selenium【代码】

selenium介绍selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器1. 环境安装下载安装selenium：pip install selenium下载浏览器驱动程序： http://chromedriver.storage.googleapis.com/index.html查看驱动和浏览器版本的映射关系： http:/...

Ubuntu下的Selenium爬虫的配置【代码】

在服务器Ubuntu系统上跑爬虫，爬虫是基于Selenium写的，遇到好几个问题，现在这里记录一下。1. 安装环境　　阿里云，Ubuntu16.04，因为没有界面，所以远程命令行操作。爬虫是基于Selenium写的，需要安装Chrome浏览器和Chromedriver。　　1.1安装Chrome和Chromedriver　　　　Chrome直接去官网下载，安装稳定版，https://www.ubuntuupdates.org/ppa/google_chrome?dist=stable，下载deb格式的安装包，上传到服务器，用命令行安装：　...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

本文主要是自己的在线代码笔记。在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。 PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援，像是生化学与细胞生物学。 PubMed是因特网...

使用selenium做简单爬虫的实例

selenium 是一个Web自动化测试的软件包，可以用于自动测试Web应用，也可以用于当作简单的爬虫制作工具，这是一个简单的demo，用于爬取Google APP Store中的一个类别: ?1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / python 使用 selenium爬虫知乎回答并保存为csv文件

python 使用 selenium爬虫知乎回答并保存为csv文件

内容导读

内容图文

实现效果

关于selenium库

用途：

使用：

关于panda库

用途：

使用：

代码

这套代码是在 python 使用 selenium 爬虫知乎的基础上进行了完善，将自动关闭登陆窗的机制改为xpath定位元素双击，然后自动向下滑动，并将结果以csv的形式写入方便以后进行数据处理。

内容总结

内容备注

内容手机端

【python 使用 selenium爬虫知乎回答并保存为csv文件】教程文章相关的互联网学习教程文章

Selenium FF WebDriver 遍历所有链接（另类爬虫）【代码】【图】

使用selenium实现简单网络爬虫抓取MM图片【代码】

python爬虫 Selenium库学习【代码】

python爬虫:使用Selenium模拟浏览器行为【代码】【图】

python selenium 爬虫自动化工作脚本【代码】

selenium模块在爬虫中的应用【代码】

Python爬虫 selenium【代码】

Python爬虫周记之案例篇——基金净值Selenium动态爬虫【代码】【图】

爬虫之selenium【代码】

Ubuntu下的Selenium爬虫的配置【代码】

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

使用selenium做简单爬虫的实例

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

文件 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / python 使用 selenium爬虫知乎回答 并保存为csv文件

python 使用 selenium爬虫知乎回答 并保存为csv文件

内容导读

内容图文

实现效果

关于selenium库

用途：

使用：

关于panda库

用途：

使用：

代码

这套代码是在 python 使用 selenium 爬虫知乎 的基础上进行了完善，将自动关闭登陆窗的机制改为xpath定位元素双击，然后自动向下滑动，并将结果以csv的形式写入方便以后进行数据处理。

内容总结

内容备注

内容手机端

【python 使用 selenium爬虫知乎回答 并保存为csv文件】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

文件 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / python 使用 selenium爬虫知乎回答并保存为csv文件

python 使用 selenium爬虫知乎回答并保存为csv文件

这套代码是在 python 使用 selenium 爬虫知乎的基础上进行了完善，将自动关闭登陆窗的机制改为xpath定位元素双击，然后自动向下滑动，并将结果以csv的形式写入方便以后进行数据处理。

【python 使用 selenium爬虫知乎回答并保存为csv文件】教程文章相关的互联网学习教程文章