首页 / HTML / python – 使用beautifulsoup解析HTML页面

python – 使用beautifulsoup解析HTML页面

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用beautifulsoup解析HTML页面，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1796字，纯文字阅读大概需要3分钟。

内容图文

我开始研究beautifulsoup来解析HTML.
例如对于网站“http://en.wikipedia.org/wiki/PLCB1”

import sys
sys.setrecursionlimit(10000)

import urllib2, sys
from BeautifulSoup import BeautifulSoup

site= "http://en.wikipedia.org/wiki/PLCB1"
hdr = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)

table = soup.find('table', {'class':'infobox'})
#print table
rows = table.findAll("th")
for x in rows:
    print "x - ", x.string

在某些有url的情况下,我输出为None.为什么会这样？

输出：

x -  Phospholipase C, beta 1 (phosphoinositide-specific)
x -  Identifiers
x -  None
x -  External IDs
x -  None
x -  None
x -  Molecular function
x -  Cellular component
x -  Biological process
x -  RNA expression pattern
x -  Orthologs
x -  Species
x -  None
x -  None
x -  None
x -  RefSeq (mRNA)
x -  RefSeq (protein)
x -  Location (UCSC)
x -  None

例如,在Location之后,还有一个包含“pubmed search”但显示为None.我想知道它为什么会发生.

和
第二：有没有办法在字典中获得th和各自的td,以便它易于解析？

解决方法:

如果元素中直接有文本,则Element.string仅包含值.嵌套元素不包括在内.

如果您使用的是BeautifulSoup 4,请使用Element.stripped_strings代替：

print ''.join(x.stripped_strings)

对于BeautifulSoup 3,您需要搜索所有文本元素：

print ''.join([unicode(t).strip() for t in x.findAll(text=True)])

如果你想组合< th>和< td>将元素放入字典中,你就可以遍历所有< th>元素,然后使用.findNextSibling()来定位相应的< td>元素,并将其与上面的.findAll(text = True)技巧结合起来构建自己的字典：

info = {}
rows = table.findAll("th")
for headercell in rows:
    valuecell = headercell.findNextSibling('td')
    if valuecell is None:
        continue
    header = ''.join([unicode(t).strip() for t in headercell.findAll(text=True)])
    value = ''.join([unicode(t).strip() for t in valuecell.findAll(text=True)])
    info[header] = value

内容总结

以上是互联网集市为您收集整理的python – 使用beautifulsoup解析HTML页面全部内容，希望文章能够帮你解决python – 使用beautifulsoup解析HTML页面所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/802531.html

来源：【匿名】

【上一篇】我什么时候想使用.html,vs .php作为文件扩展名？【下一篇】PHP 和 HTML

更多 ►

【python – 使用beautifulsoup解析HTML页面】教程文章相关的互联网学习教程文章

jsoup解析Html

何使用Jsoup这个库来解析我们的网页，并且如何对我们想解析的网页进行分析。Jsoup这个库的下载地址：http://jsoup.org/downloadJsoup的资料比较少，可供参考的可到其官网进行学习这个库的使用：http://www.open-open.com/jsoup/API查阅地址：http://jsoup.org/apidocs/其中获取html代码，可以使用如下代码实现： [java] view plaincopyprint?public String getHtmlString(String urlString) { try { URL url = new U...

Delphi 解析HTML【代码】

procedure TForm1.btnphClick(Sender: TObject); varDocument: IHTMLDocument2;FTableCollection, tempCoc: IHTMLElementCollection;table: IHTMLTABLE;TableRow: IHTMLTableRow;elmt: IHTMLEleMent;I, J, K: integer;str: string; beginDocument := WebBrowser1.Document as IHTMLDocument2;FTableCollection := Document.all;FTableCollection.Length; //FTableCollection.item(1, 0);FTableCollection := Document.all.tags(‘t...

html新增结构元素解析【代码】

本文主要帮助理解HTML5新增的article、section、aside、nav、time标签的使用场景。section表示页面上的区域，主要的目的是给文章分段等，section里必须包含标题。<section> <h1>标题</h1> <article>内容</article> </section>article表示页面上独立的区域，和section相比，article更注重自身的独立性。<article> <section><h1>标题</h1><p>内容</p> </section> </article>aside表示页面的附加内容，可以是文章的含义，链接等<artic...

解析PHP生成静态html文件的三种方法

本文将介绍Php 生成静态html文件的三种方法。1,下面使用模版的一个方法!复制代码代码如下:<?php $fp = fopen ("templets.html","a"); if ($fp){ $fup = fread ($fp,filesize("templets.html")); $fp2 = fopen ("html.shtml","w"); if ($fwrite ($fp2,$fup)){ $fclose ($fp); $fcolse ($fp2); die ("写入模板成功"); } else { fclose ($fp); die ("写入模板失败!"); } } ?> 简单的将模板写进一个文件中存为html.html 2,按时间生成...

Python实现简单HTML表格解析的方法【代码】

本文实例讲述了Python实现简单HTML表格解析的方法。分享给大家供大家参考。具体分析如下：这里依赖libxml2dom，确保首先安装！导入到你的脚步并调用parse_tables() 函数。1. source = a string containing the source code you can pass in just the table or the entire page code2. headers = a list of ints OR a list of strings If the headers are ints this is for tables with no header, just list the 0 based index of...

HTML解析过程

1. 创建Document对象，开始解析web页面，解析HTML元素和字符数据，添加Element节点和text节点到Document中，此时，document.readyState = loading 2.遇到 link 外部 CSS，创建线程加载，并继续解析文档 3.遇到 script 外部Js: （1）未设置 async、defer浏览器加载Js，并堵塞，等待Js加载完成后执行脚本，然后继续解析文档（2）设置 async 异步加载脚本，脚本加载完立即执行脚本（3）设置defer异步加载脚本，等待文档解析完执行脚本...

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

引言博客园是本人每日必逛的一个IT社区。尽管博文以.net技术居多，但是相对于CSDN这种业务杂乱、体系庞大的平台，博客园的纯粹更得我青睐。之前在园子里也见过不少讲解为博客园编写客户端的博文。不过似乎都是移动端的技术为主。这篇博文开始讲讲如何在PC端编写一个博客园客户端程序。一方面是因为本人对于博客园的感情；另一方面也想用Qt写点什么东西出来。毕竟在实践中学习收效更快。登录过程分析登录功能是一个...

html5 audio音频播放全解析【代码】【图】

html5开启了一个新时代，因为它让浏览器本身变得不那么被动，audio api就是一个典型的列子，在html5还没确定之前，如果想要在网页上听音乐看视频唯一的办法就是用flash意思是当你没有给浏览器装载Flash插件的话那么音乐视频即是空谈，html5 audio的出现改变了这一格局，因为你可以不用Flash插件就可以听音乐看视频，当然这些能否实现还跟你用的浏览器有关。 1.html5 audio的语法以及属性和方法使用语法<audio src="song.mp3" con...

HTML_a标签的href属性取值解析

定义和用法<a> 标签的 href 属性用于指定超链接目标的 URL。href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符和 JavaScript 代码段。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档，或者执行 JavaScript 表达式、方法和函数的列表。 1 <a href="路径"></a>这种方法最常见，点击a标签，页面将会跳转到href指定的路径页面下。这里的路径可以是绝对路径，也可以是...

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack 最近处于毕业设计开始阶段，前期工作需要去国外的一些专业数据库网站比对一些所需TF家族信息，为了快捷方便，想到用程序去帮助实现。前期实现了一系列的尝试，使用C#的的网络编程类库，获取查询结果，但是为了分析其中的结果并进行比对，我最开始尝试了两天之久的正则表达式，最后发现在解析这样的HTML文档的时候，花费时间太多，因此开始改变策略，最后得知MSHTML和HAP这两个...

关于源码输出,浏览器不解析Html标签【图】

有时候根据需要我们需要看到浏览器上源码效果如:但是我如果在html中输入 <a href = ‘http://www.baidu.com‘>百度</a>那么问题来了,总是显示这种效果说明html源被解析,哦No可是这不是我们想到的效果没事我们看一看 w3c效果是不是看出什到来了,我们要用到pre标签中给我们呈现某种需要如 < , >这些符号在编辑源码：哦　真相大白如下:原文：http://www.cnblogs.com/yzenet/p/4720030.html

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式： public static HtmlDocument LoadHtmlByUrls(string url) { HtmlDocument htmldoc; HtmlWeb htmlWeb = new HtmlWeb(); //不够完善此内置方法导致中文乱码 //htmlWeb.OverrideEncoding = Encoding.UTF8; htmldoc = htmlWeb.Load(url); Encoding coding = htmldoc.StreamEncoding; htmlWeb.Over...

Python_lxml解析HTML【代码】

1.Python解析XML的常用方法有以下几种：1、DOM解析, xml.dom.*模块。 2、SAX解析, xml.sax.*模块。 3、ET解析, xml.etree.ElementTree模块。 4、lxml解析,并结合XPath提取元素。 01.说明：lxml有两大部分，分别支持XML和HTML的解析：lxml.etree 解析 XMLlxml.html 解析 html from lxml import etree, html 02.lxml解析#01.导入相关标准库from lxml import etree #02.定义解析器parser = etree.XMLParser(encoding = "utf-8") #03...

vbs 解析 html 文档【图】

关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有js都不会被执行，只是干干净净的dom文档，所以在逼不得已的情况下开启 designMode 一般情况保持默认即可。Set html = CreateObject("htmlfile")Set http = CreateObject("Msxml2.ServerXMLHTTP")html.designMode = "on" ‘ 开启编...

Jsoup解析html页面实现CSDN博客客户端【图】

这段时间课比较少，我用Jsoup解析html写了一个阅读CSDN博客的app。已经实现的功能有：1、阅读博客频道首页最新|最热的文章：2、浏览所有专栏&阅读其中的文章：3、阅读热门文章：4、查看指定id用户的所有文章：整个程序运行起来的样子大概就是这个样子..核心代码：下载指定的html页面 ——> 使用Jsoup解析，获取自己需要的元素。了解Jsoup的同学都知道很简单的。由于时间&水平有限，app界面很简陋，可能会有些BUG。而且有一个问题没...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / python – 使用beautifulsoup解析HTML页面

python – 使用beautifulsoup解析HTML页面

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用beautifulsoup解析HTML页面】教程文章相关的互联网学习教程文章

jsoup解析Html

Delphi 解析HTML【代码】

html新增结构元素解析【代码】

解析PHP生成静态html文件的三种方法

Python实现简单HTML表格解析的方法【代码】

HTML解析过程

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

html5 audio音频播放全解析【代码】【图】

HTML_a标签的href属性取值解析

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

关于源码输出,浏览器不解析Html标签【图】

关于HtmlAgilityPack解析页面中数据乱码问题

Python_lxml解析HTML【代码】

vbs 解析 html 文档【图】

Jsoup解析html页面实现CSDN博客客户端【图】

PYTHON - 相关标签

HTML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程