首页 / HTML / WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose

WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4559字，纯文字阅读大概需要7分钟。

内容图文

WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose

有人问米开朗基罗："您是如何创造出《大卫》这样的巨作的？"他答道："很简单，我去采石场，看见一块巨大的大理石，我要做的只是凿去那些不该有的大理石，大卫就诞生了。

同样我们在抓取网页的时候，需要去掉我们不需要的，提取出需要的信息，只不过技术相当复杂。这篇文章将介绍HTML解析技术

在上篇文章（ Web Scraping with Python--第一个网页抓取实例）中，我们初步接触了BeutifulSoup库, 这里我们将通过属性来查找标签tags。

几乎所有的网站都包含CSS，对我们抓取网页很有利，CSS依赖于不同的HTML元素有不同的标记，比如：

来看一个网站-http://www.pythonscraping.com/pages/warandpeace.html，里面是一篇文章，口语是红色的字体，而讲话者是绿色的字体，选取其中一个源代码片段：

"Heavens! what a virulent attack!" replied the prince, not in the least disconcerted by this reception.

可以使用上一篇文章中使用的程序来创建一个BeautifulSoup对象来获取整个网页：

from urllib.requestimport urlopenfrom bs4import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html)

使用BeautifulSoup对象的findAll方法来提取出一个指定要求的列表

nameList = bsObj.findAll("span", {"class":"green"})for namein nameList:    print(name.get_text())

将上面的代码证整理一下：

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")nameList = bsObj.findAll("span", {"class": "green"})for namein nameList:    print(name.get_text())

运行结果：

Anna

Pavlovna Scherer

Empress Marya

……

解释一下上面的代码：

bsObj.findAll(tagName, tagAttributes) 获取整个页面上的标签的列表，然后通过迭代列表，获取相应的标签的内容

find() 和 findAll()

这两个方法很相似，它们的声明如下：

findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)

tag参数就像之前见到的那样，你可以传递一个字符串或者一个字符串列表：.findAll({"h1","h2","h3","h4","h5","h6"})

attributes参数传递一个属性和tags相匹配的字典，例如:.findAll("span", {"class":"green", "class":"red"})

recursive参数用于设置是否设置递归

keywor参数允许你包含一个特别的属性，例如：

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")allText = bsObj.findAll(id="text")#也可以换为：allText = bsObj.findAll("",{"id":"text"})print(allText[0].get_text())

如果你想查找子标签，可以使用children:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for childin bsObj.find("table", {"id": "giftList"}).children:    print(child)

如果想去掉第一行的内容，可以使用next_siblings

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for siblingin bsObj.find("table", {"id":"giftList"}).tr.next_siblings:    print(sibling)

如果你想查找父标签，可以使用 previous_siblings:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

从下面的html结构一目了然

—

— (3)

— “$15.00” (4)

— s (2)

— WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose - 文章图片 (1)

正则表达式与 BeautifulSoup

python中的正则可以参照我的另一篇《 Python基础（9）--正则表达式》

注意到上面的实例网页中有如下结构：

WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose - 文章图片

假如有个需求是提取所有的img标签，按照之前的说法，可以考虑 findAll("img")来解决这个问题，但是现代网站有的隐藏img……等不确定因素，这时候才有正则表达式来解决：

from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport re html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for imagein images:    print(image["src"])

运行结果如下：

../img/gifts/img1.jpg

../img/gifts/img2.jpg

../img/gifts/img4.jpg

../img/gifts/img6.jpg

作者：工学1号馆

出处： http://wuyudong.com/1842.html

本文版权归作者所有，欢迎转载，在文章页面明显位置给出原文链接，否则保留追究法律责任的权利.

如果觉得本文对您有帮助，可以对作者进行小额【赞助】

内容总结

以上是互联网集市为您收集整理的WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose全部内容，希望文章能够帮你解决WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/407553.html

来源：【匿名】

【上一篇】阿里自主研发的互动游戏引擎Hilo开源啦_html/css_WEB-ITnose 【下一篇】PHP 和 HTML

更多 ►

【WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose】教程文章相关的互联网学习教程文章

html新增结构元素解析【代码】

本文主要帮助理解HTML5新增的article、section、aside、nav、time标签的使用场景。section表示页面上的区域，主要的目的是给文章分段等，section里必须包含标题。<section> <h1>标题</h1> <article>内容</article> </section>article表示页面上独立的区域，和section相比，article更注重自身的独立性。<article> <section><h1>标题</h1><p>内容</p> </section> </article>aside表示页面的附加内容，可以是文章的含义，链接等<artic...

解析PHP生成静态html文件的三种方法

本文将介绍Php 生成静态html文件的三种方法。1,下面使用模版的一个方法!复制代码代码如下:<?php $fp = fopen ("templets.html","a"); if ($fp){ $fup = fread ($fp,filesize("templets.html")); $fp2 = fopen ("html.shtml","w"); if ($fwrite ($fp2,$fup)){ $fclose ($fp); $fcolse ($fp2); die ("写入模板成功"); } else { fclose ($fp); die ("写入模板失败!"); } } ?> 简单的将模板写进一个文件中存为html.html 2,按时间生成...

Python实现简单HTML表格解析的方法【代码】

本文实例讲述了Python实现简单HTML表格解析的方法。分享给大家供大家参考。具体分析如下：这里依赖libxml2dom，确保首先安装！导入到你的脚步并调用parse_tables() 函数。1. source = a string containing the source code you can pass in just the table or the entire page code2. headers = a list of ints OR a list of strings If the headers are ints this is for tables with no header, just list the 0 based index of...

HTML解析过程

1. 创建Document对象，开始解析web页面，解析HTML元素和字符数据，添加Element节点和text节点到Document中，此时，document.readyState = loading 2.遇到 link 外部 CSS，创建线程加载，并继续解析文档 3.遇到 script 外部Js: （1）未设置 async、defer浏览器加载Js，并堵塞，等待Js加载完成后执行脚本，然后继续解析文档（2）设置 async 异步加载脚本，脚本加载完立即执行脚本（3）设置defer异步加载脚本，等待文档解析完执行脚本...

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

引言博客园是本人每日必逛的一个IT社区。尽管博文以.net技术居多，但是相对于CSDN这种业务杂乱、体系庞大的平台，博客园的纯粹更得我青睐。之前在园子里也见过不少讲解为博客园编写客户端的博文。不过似乎都是移动端的技术为主。这篇博文开始讲讲如何在PC端编写一个博客园客户端程序。一方面是因为本人对于博客园的感情；另一方面也想用Qt写点什么东西出来。毕竟在实践中学习收效更快。登录过程分析登录功能是一个...

html5 audio音频播放全解析【代码】【图】

html5开启了一个新时代，因为它让浏览器本身变得不那么被动，audio api就是一个典型的列子，在html5还没确定之前，如果想要在网页上听音乐看视频唯一的办法就是用flash意思是当你没有给浏览器装载Flash插件的话那么音乐视频即是空谈，html5 audio的出现改变了这一格局，因为你可以不用Flash插件就可以听音乐看视频，当然这些能否实现还跟你用的浏览器有关。 1.html5 audio的语法以及属性和方法使用语法<audio src="song.mp3" con...

HTML_a标签的href属性取值解析

定义和用法<a> 标签的 href 属性用于指定超链接目标的 URL。href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符和 JavaScript 代码段。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档，或者执行 JavaScript 表达式、方法和函数的列表。 1 <a href="路径"></a>这种方法最常见，点击a标签，页面将会跳转到href指定的路径页面下。这里的路径可以是绝对路径，也可以是...

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack 最近处于毕业设计开始阶段，前期工作需要去国外的一些专业数据库网站比对一些所需TF家族信息，为了快捷方便，想到用程序去帮助实现。前期实现了一系列的尝试，使用C#的的网络编程类库，获取查询结果，但是为了分析其中的结果并进行比对，我最开始尝试了两天之久的正则表达式，最后发现在解析这样的HTML文档的时候，花费时间太多，因此开始改变策略，最后得知MSHTML和HAP这两个...

关于源码输出,浏览器不解析Html标签【图】

有时候根据需要我们需要看到浏览器上源码效果如:但是我如果在html中输入 <a href = ‘http://www.baidu.com‘>百度</a>那么问题来了,总是显示这种效果说明html源被解析,哦No可是这不是我们想到的效果没事我们看一看 w3c效果是不是看出什到来了,我们要用到pre标签中给我们呈现某种需要如 < , >这些符号在编辑源码：哦　真相大白如下:原文：http://www.cnblogs.com/yzenet/p/4720030.html

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式： public static HtmlDocument LoadHtmlByUrls(string url) { HtmlDocument htmldoc; HtmlWeb htmlWeb = new HtmlWeb(); //不够完善此内置方法导致中文乱码 //htmlWeb.OverrideEncoding = Encoding.UTF8; htmldoc = htmlWeb.Load(url); Encoding coding = htmldoc.StreamEncoding; htmlWeb.Over...

Python_lxml解析HTML【代码】

1.Python解析XML的常用方法有以下几种：1、DOM解析, xml.dom.*模块。 2、SAX解析, xml.sax.*模块。 3、ET解析, xml.etree.ElementTree模块。 4、lxml解析,并结合XPath提取元素。 01.说明：lxml有两大部分，分别支持XML和HTML的解析：lxml.etree 解析 XMLlxml.html 解析 html from lxml import etree, html 02.lxml解析#01.导入相关标准库from lxml import etree #02.定义解析器parser = etree.XMLParser(encoding = "utf-8") #03...

vbs 解析 html 文档【图】

关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有js都不会被执行，只是干干净净的dom文档，所以在逼不得已的情况下开启 designMode 一般情况保持默认即可。Set html = CreateObject("htmlfile")Set http = CreateObject("Msxml2.ServerXMLHTTP")html.designMode = "on" ‘ 开启编...

Jsoup解析html页面实现CSDN博客客户端【图】

这段时间课比较少，我用Jsoup解析html写了一个阅读CSDN博客的app。已经实现的功能有：1、阅读博客频道首页最新|最热的文章：2、浏览所有专栏&阅读其中的文章：3、阅读热门文章：4、查看指定id用户的所有文章：整个程序运行起来的样子大概就是这个样子..核心代码：下载指定的html页面 ——> 使用Jsoup解析，获取自己需要的元素。了解Jsoup的同学都知道很简单的。由于时间&水平有限，app界面很简陋，可能会有些BUG。而且有一个问题没...

IOS 用正则表达式解析HTML等文件,得到所有文本

获得网页内容NSURL *url=[NSURL URLWithString:@"http://121.199.34.52/wordpress/?json=core.get_post_content&post_id=8764&post_type=post"]; NSDictionary * dic=[NSJSONSerialization JSONObjectWithData:[NSData dataWithContentsOfURL:url] options:0 error:Nil]; NSString *content=[dic objectForKey:@"content"];正则表达式 NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithP...

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

上一篇博客Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码中我们已经学习到如何从网站上获取html的源码, 那么今天我们就来学习如何使用正则表达式来解析HTML.同样以Python的Api文档为例.正则表达式:又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(从百度上复制过来的)看这篇文章没有正...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose

WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose

内容导读

内容图文

find() 和 findAll()

正则表达式与 BeautifulSoup

内容总结

内容备注

内容手机端

【WebScrapingwithPython深入HTML解析_html/css_WEB-ITnose】教程文章相关的互联网学习教程文章

html新增结构元素解析【代码】

解析PHP生成静态html文件的三种方法

Python实现简单HTML表格解析的方法【代码】

HTML解析过程

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

html5 audio音频播放全解析【代码】【图】

HTML_a标签的href属性取值解析

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

关于源码输出,浏览器不解析Html标签【图】

关于HtmlAgilityPack解析页面中数据乱码问题

Python_lxml解析HTML【代码】

vbs 解析 html 文档【图】

Jsoup解析html页面实现CSDN博客客户端【图】

IOS 用正则表达式解析HTML等文件,得到所有文本

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

PYTHON - 相关标签

HTML - 相关标签

CSS - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程