首页 / 爬虫 / [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了[python爬虫] Selenium定向爬取PubMed生物医学摘要信息，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4071字，纯文字阅读大概需要6分钟。

内容图文

本文主要是自己的在线代码笔记。在生物医学本体Ontology构建过程中，我使用Selenium定向爬取生物医学PubMed数据库的内容。
PubMed是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE（生物医学数据库），其核心主题为医学，但亦包括其他与医学相关的领域，像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援，像是生化学与细胞生物学。
PubMed是因特网上使用最广泛的免费MEDLINE，该搜寻引擎是由美国国立医学图书馆提供，它是基于WEB的生物医学信息检索系统，它是NCBI Entrez整个数据库查询系统中的一个。PubMed界面提供与综合分子生物学数据库的链接，其内容包括：DNA与蛋白质序列，基因图数据，3D蛋白构象，人类孟德尔遗传在线，也包含着与提供期刊全文的出版商网址的链接等。
医学导航链接：http://www.meddir.cn/cate/736.htm
PubMed官网：http://pubmed.cn/

实现代码

实现的代码主要是Selenium通过分析网页DOM结点进行爬取。
爬取的地址是：http://www.medlive.cn/pubmed/
在网址中搜索Protein（蛋白质）后，分析网址可发现设置Page=1~20可爬取前1~20页的URL信息。链接如下：
http://www.medlive.cn/pubmed/pubmed_search.do?q=protein&page=1

             1
            #
             coding=utf-8
             2
            """
             3
            Created on 2015-12-05  Ontology Spider

             4
            @author Eastmount CSDN

             5
            URL:

             6
              http://www.meddir.cn/cate/736.htm

             7
              http://www.medlive.cn/pubmed/

             8
              http://paper.medlive.cn/literature/1502224

             9
            """
            10
            11
            import
             time          

            12
            import
             re          

            13
            import
             os

            14
            import
             shutil

            15
            import
             sys

            16
            import
             codecs 

            17
            from selenium import webdriver      
18from selenium.webdriver.common.keys import Keys      
19import selenium.webdriver.support.ui as ui      
20from selenium.webdriver.common.action_chains import ActionChains  
2122#Open PhantomJS23 driver = webdriver.Firefox()
24 driver2 = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") 
25 wait = ui.WebDriverWait(driver,10)
2627‘‘‘28 Load Ontoloty
29 去到每个生物本体页面下载摘要信息
30 http://paper.medlive.cn/literature/literature_view.php?pmid=26637181
31 http://paper.medlive.cn/literature/1526876
32‘‘‘33def getAbstract(num,title,url):
34try:
35         fileName = "E:\\PubMedSpider\\" + str(num) + ".txt"36#result = open(fileName,"w")37#Error: ‘ascii‘ codec can‘t encode character u‘\u223c‘38         result = codecs.open(fileName,‘w‘,‘utf-8‘) 
39         result.write("[Title]\r\n")
40         result.write(title+"\r\n\r\n")
41         result.write("[Astract]\r\n")
42        driver2.get(url)
43         elem = driver2.find_element_by_xpath("//div[@class=‘txt‘]/p")
44#print elem.text45         result.write(elem.text+"\r\n")
46except Exception,e:    
47print‘Error:‘,e
48finally:
49        result.close()
50print‘END\n‘5152‘‘‘53 循环获取搜索页面的URL
54 规律 http://www.medlive.cn/pubmed/pubmed_search.do?q=protein&page=1
55‘‘‘56def getURL():
57     page = 1      #跳转的页面总数58     count = 1     #统计所有搜索的生物本体个数    59while page<=20:
60         url_page = "http://www.medlive.cn/pubmed/pubmed_search.do?q=protein&page="+str(page)
61print url_page
62        driver.get(url_page)
63         elem_url = driver.find_elements_by_xpath("//div[@id=‘div_data‘]/div/div/h3/a")
64for url in elem_url:
65             num = "%05d" % count
66             title = url.text
67             url_content = url.get_attribute("href")
68print num
69print title
70print url_content
71#自定义函数获取内容72            getAbstract(num,title,url_content)
73             count = count + 1
74else:
75print"Over Page " + str(page) + "\n\n"76         page = page + 1
77else:
78"Over getUrl()\n"79         time.sleep(5)
8081‘‘‘82 主函数预先运行
83‘‘‘84if__name__ == ‘__main__‘:
85     path = "F:\\MedSpider\\"86if os.path.isfile(path):         #Delete file87        os.remove(path)
88elif os.path.isdir(path):        #Delete dir    89        shutil.rmtree(path, True)    
90     os.makedirs(path)                #Create the file directory91    getURL()
92print"Download has finished."

分析HTML

1.获取每页Page中的20个关于Protein（蛋白质）的URL链接和标题。其中getURL()函数中的核心代码获取URL如下：
  url = driver.find_elements_by_xpath("//div[@id=‘div_data‘]/div/div/h3/a")
  url_content = url.get_attribute("href")
  getAbstract(num,title,url_content)

2.再去到具体的生物文章页面获取摘要信息

其中你可能遇到的错误包括：
1.Error: ‘ascii‘ codec can‘t encode character u‘\u223c‘
它是文件读写编码错误，我通常会将open(fileName,"w")改为codecs.open(fileName,‘w‘,‘utf-8‘) 即可。
2.第二个错误如下图所示或如下，可能是因为网页加载或Connection返回Close导致
WebDriverException: Message: Error Message => ‘URL ‘ didn‘t load. Error: ‘TypeError: ‘null‘ is not an object

运行结果

得到的运行结果如下所示：00001.txt~00400.txt共400个txt文件，每个文件包含标题和摘要，该数据集可简单用于生物医学的本体学习、命名实体识别、本体对齐构建等。

技术分享

PS：最后也希望这篇文章对你有所帮助吧！虽然文章内容很简单，但是对于初学者或者刚接触爬虫的同学来说，还是有一定帮助的。同时，这篇文章更多的是我的个人在线笔记，简单记录下一段代码，以后也不会再写Selenium这种简单的爬取页面的文章了，更多是一些智能动态的操作和Scrapy、Python分布式爬虫的文章吧。如果文中有错误和不足之处，还请海涵~昨天自己生日，祝福自己，老师梦啊老师梦！！！
（By:Eastmount 2015-12-06 深夜3点半 http://blog.csdn.net/eastmount/）

原文：http://www.cnblogs.com/eastmount/p/5055911.html

内容总结

以上是互联网集市为您收集整理的[python爬虫] Selenium定向爬取PubMed生物医学摘要信息全部内容，希望文章能够帮你解决[python爬虫] Selenium定向爬取PubMed生物医学摘要信息所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1196533.html

来源：【匿名】

【上一篇】【爬虫】-爬取猫眼TOP100 【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【[python爬虫] Selenium定向爬取PubMed生物医学摘要信息】教程文章相关的互联网学习教程文章

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息【代码】【图】

python爬虫中图形验证码的处理【代码】【图】

使用python爬虫自动登录时，遇到需要输入图形验证码的情况，一个比较简单的处理方法是使用打码平台识别验证码。使用过两个打码平台，打码兔和若快，若快的价格更便宜，识别率相当。若快需要注册两个帐号：开发者帐号与用户帐号，用户帐号用于发送识别请求，开发者帐号可以注册软件id，并于识别请求进行绑定，可以参与识别收入的分成返现。获取图形验证码目前发现的有两种方式：0x01 在抓包中可以直接获得图片：发送get请求可以直接...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

python之爬虫（三） Urllib库的基本使用【代码】【图】

官方文档地址：https://docs.python.org/3/library/urllib.html什么是UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)url参数的使用先写一个简单...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

python爬虫从入门到放弃（八）之 Selenium库的使用【代码】【图】

原文地址https://www.cnblogs.com/zhaof/p/6953241.html一、什么是Seleniumselenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决Ja...

python爬虫及结巴分词《攀登者》影评分析【代码】

《攀登者》影评爬取及分析0、项目结构其中simkai.ttf为字体文件，Windows查看系统自带的字体C:\Windows\Fonts一、爬取豆瓣影评数据# -*- coding: utf-8 -*- """爬取豆瓣影评""" import requests from lxml import etree import timeurl = "https://movie.douban.com/subject/30413052/comments?start=%d&limit=20&sort=new_score&status=P"#请求头 headers = {'Host': 'movie.douban.com', 'User-Agent': 'Mozilla/5.0 (Windows NT...

Python爬虫进阶二之PySpider框架安装配置【图】

关于首先，在此附上项目的地址，以及官方文档PySpider官方文档安装1. pip首先确保你已经安装了pip，若没有安装，请参照pip安装2. phantomjsPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。安装以上附有官方安装方式，如果你是 Ubuntu 或 ...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

python—爬虫【代码】【图】

1.1 介绍通过过滤和分析HTML代码，实现对文件、图片等资源的获取，一般用到：urllib和urllib2模块正则表达式（re模块）requests模块Scrapy框架urllib库：1）获取web页面2）在远程http服务器上验证3）表单提交（GET和POST）4）异常处理（urllib2.URLError）5）非http协议通信（ftp）获取页面信息：urllib2.urlopen(url,data,timeout)构造Requestreques = URLlib.Request(url,data,headers={})response = urllib2.urlopen(request)re...

Python爬虫---requests库快速上手【代码】

一、requests库简介requests是Python的一个HTTP相关的库requests安装：pip install requests二、GET请求import requests # 首先导入reqeusts模块 res = requests.get( # 使用requests模拟浏览器发送一个get请求url="https://www.baidu.com", # 指定访问的网址)# 打印响应内容：网站的源代码print(res.text)# 打印二进制响应内容;我们在拉取音乐、视频等使用print(res.content)reqeusts初体验我们发送get请求时，如果URL参数...

Python爬虫爬取百度贴吧的图片

根据输入的贴吧地址，爬取想要该贴吧的图片，保存到本地文件夹，仅供参考： #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport osimport sysreload(sys)sys.setdefaultencoding("utf-8")#下载图片class GetPic: #页面初始化 def __init__(self,baseUrl,seelz): #base链接地址 self.baseURL = baseUrl #是否只看楼主 self.seeLZ = ‘?seelz=‘ + str(seelz) #self.tool = tool.Tool() #获取页面...

python爬虫代码【代码】

原创python爬虫代码主要用到urllib2、BeautifulSoup模块#encoding=utf-8import re import requests import urllib2 import datetime import MySQLdb from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8")class Splider(object):def__init__(self):print u‘开始爬取内容...‘##用来获取网页源代码def getsource(self,url):headers = {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X...

首页 / 爬虫 / [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

内容导读

内容图文

内容总结

内容备注

内容手机端

【[python爬虫] Selenium定向爬取PubMed生物医学摘要信息】教程文章相关的互联网学习教程文章

PYTHON爬虫 - 相关标签

SELENIUM - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程