首页 / HTML / php解析html类库simple_html_dom(详细介绍)

php解析html类库simple_html_dom(详细介绍)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php解析html类库simple_html_dom(详细介绍)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3845字，纯文字阅读大概需要6分钟。

内容图文

下载地址：https://github.com/samacs/simple_html_dom

解析器不仅仅只是帮助我们验证html文档；更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添加、删除、修改文档树的功能。当然，这样一款强大的html Dom解析器也不是尽善尽美；在使用的过程中需要十分小心内存消耗的情况。不过，不要担心；本文中，笔者在最后会为各位介绍如何避免消耗过多的内存。
开始使用
上传类文件以后，有三种方式调用这个类：
从url中加载html文档
从字符串中加载html文档
从文件中加载html文档
代码如下:
<?php
// 新建一个Dom实例
$html = new simple_html_dom();

// 从url中加载
$html->load_file('//www.gxlcms.com');

// 从字符串中加载
$html->load('<html><body>从字符串中加载html文档演示</body></html>');

//从文件中加载
$html->load_file('path/file/test.html');
?>

如果从字符串加载html文档，需要先从网络上下载。建议使用cURL来抓取html文档并加载DOM中。
查找html元素
可以使用find函数来查找html文档中的元素。返回的结果是一个包含了对象的数组。我们使用HTML DOM解析类中的函数来访问这些对象，下面给出几个示例：
代码如下:
<?php

//查找html文档中的超链接元素
$a = $html->find('a');

//查找文档中第(N)个超链接，如果没有找到则返回空数组.
$a = $html->find('a', 0);

// 查找id为main的div元素
$main = $html->find('div[id=main]',0);

// 查找所有包含有id属性的div元素
$divs = $html->find('div[id]');

// 查找所有包含有id属性的元素
$divs = $html->find('[id]');
?>

还可以使用类似jQuery的选择器来查找定位元素：
代码如下:
<?php
// 查找id='#container'的元素
$ret = $html->find('#container');

// 找到所有class=foo的元素
$ret = $html->find('.foo');

// 查找多个html标签
$ret = $html->find('a, img');

// 还可以这样用
$ret = $html->find('a[title], img[title]');
?>

解析器支持对子元素的查找
代码如下:
<?php

// 查找 ul列表中所有的li项
$ret = $html->find('ul li');

//查找 ul 列表指定class=selected的li项
$ret = $html->find('ul li.selected');

?>

如果你觉得这样用起来麻烦，使用内置函数可以轻松定位元素的父元素、子元素与相邻元素
代码如下:
<?php
// 返回父元素
$e->parent;

// 返回子元素数组
$e->children;

// 通过索引号返回指定子元素
$e->children(0);

// 返回第一个资源速
$e->first_child ();

// 返回最后一个子元素
$e->last _child ();

// 返回上一个相邻元素
$e->prev_sibling ();

//返回下一个相邻元素
$e->next_sibling ();
?>

元素属性操作
使用简单的正则表达式来操作属性选择器。
[attribute] – 选择包含某属性的html元素
[attribute=value] – 选择所有指定值属性的html元素
[attribute!=value]- 选择所有非指定值属性的html元素
[attribute^=value] -选择所有指定值开头属性的html元素
[attribute$=value] 选择所有指定值结尾属性的html元素
[attribute*=value] -选择所有包含指定值属性的html元素
在解析器中调用元素属性
在DOM中元素属性也是对象：
代码如下:
<?php
// 本例中将$a的锚链接值赋给$link变量
$link = $a->href;
?>

或者：
代码如下:
<?php
$link = $html->find('a',0)->href;
?

每个对象都有4个基本对象属性:
tag – 返回html标签名
innertext – 返回innerHTML
outertext – 返回outerHTML
plaintext – 返回html标签中的文本
在解析器中编辑元素
编辑元素属性的用法和调用它们是类似的：
代码如下:
<?php
//给$a的锚链接赋新值
$a->href = '//www.gxlcms.com';

// 删除锚链接
$a->href = null;

// 检测是否存在锚链接
if(isset($a->href)) {
//代码
}
?>

解析器中没有专门的方法来添加、删除元素，不过可以变通一下使用：
代码如下:
<?php
// 封装元素
$e->outertext = '<div class="wrap">' . $e->outertext . '<div>';

// 删除元素
$e->outertext = '';

// 添加元素
$e->outertext = $e->outertext . '<div>foo<div>';

// 插入元素
$e->outertext = '<div>foo<div>' . $e->outertext;
?

保存修改后的html DOM文档也非常简单：
代码如下:
<?php
$doc = $html;
// 输出
echo $doc;
?>

如何避免解析器消耗过多内存
在本文的开篇中，笔者就提到了Simple HTML DOM解析器消耗内存过多的问题。如果php脚本占用内存太多，会导致网站停止响应等一系列严重的问题。解决的方法也很简单，在解析器加载html文档并使用完成后，记得清理掉这个对象就可以了。当然，也不要把问题看得太严重了。如果只是加载了2、3个文档，清理或不清理是没有多大区别的。当你加载了5个10个甚至更多的文档的时候，用完一个就清理一下内存绝对是对自己负责啦^_^
代码如下:
<?php
$html->clear();
?>

内容总结

以上是互联网集市为您收集整理的php解析html类库simple_html_dom(详细介绍)全部内容，希望文章能够帮你解决php解析html类库simple_html_dom(详细介绍)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/268989.html

来源：【匿名】

【上一篇】php 批量替换html标签的实例代码【下一篇】PHP 和 HTML

更多 ►

【php解析html类库simple_html_dom(详细介绍)】教程文章相关的互联网学习教程文章

jsoup解析Html

何使用Jsoup这个库来解析我们的网页，并且如何对我们想解析的网页进行分析。Jsoup这个库的下载地址：http://jsoup.org/downloadJsoup的资料比较少，可供参考的可到其官网进行学习这个库的使用：http://www.open-open.com/jsoup/API查阅地址：http://jsoup.org/apidocs/其中获取html代码，可以使用如下代码实现： [java] view plaincopyprint?public String getHtmlString(String urlString) { try { URL url = new U...

Delphi 解析HTML【代码】

procedure TForm1.btnphClick(Sender: TObject); varDocument: IHTMLDocument2;FTableCollection, tempCoc: IHTMLElementCollection;table: IHTMLTABLE;TableRow: IHTMLTableRow;elmt: IHTMLEleMent;I, J, K: integer;str: string; beginDocument := WebBrowser1.Document as IHTMLDocument2;FTableCollection := Document.all;FTableCollection.Length; //FTableCollection.item(1, 0);FTableCollection := Document.all.tags(‘t...

html新增结构元素解析【代码】

本文主要帮助理解HTML5新增的article、section、aside、nav、time标签的使用场景。section表示页面上的区域，主要的目的是给文章分段等，section里必须包含标题。<section> <h1>标题</h1> <article>内容</article> </section>article表示页面上独立的区域，和section相比，article更注重自身的独立性。<article> <section><h1>标题</h1><p>内容</p> </section> </article>aside表示页面的附加内容，可以是文章的含义，链接等<artic...

解析PHP生成静态html文件的三种方法

本文将介绍Php 生成静态html文件的三种方法。1,下面使用模版的一个方法!复制代码代码如下:<?php $fp = fopen ("templets.html","a"); if ($fp){ $fup = fread ($fp,filesize("templets.html")); $fp2 = fopen ("html.shtml","w"); if ($fwrite ($fp2,$fup)){ $fclose ($fp); $fcolse ($fp2); die ("写入模板成功"); } else { fclose ($fp); die ("写入模板失败!"); } } ?> 简单的将模板写进一个文件中存为html.html 2,按时间生成...

Python实现简单HTML表格解析的方法【代码】

本文实例讲述了Python实现简单HTML表格解析的方法。分享给大家供大家参考。具体分析如下：这里依赖libxml2dom，确保首先安装！导入到你的脚步并调用parse_tables() 函数。1. source = a string containing the source code you can pass in just the table or the entire page code2. headers = a list of ints OR a list of strings If the headers are ints this is for tables with no header, just list the 0 based index of...

HTML解析过程

1. 创建Document对象，开始解析web页面，解析HTML元素和字符数据，添加Element节点和text节点到Document中，此时，document.readyState = loading 2.遇到 link 外部 CSS，创建线程加载，并继续解析文档 3.遇到 script 外部Js: （1）未设置 async、defer浏览器加载Js，并堵塞，等待Js加载完成后执行脚本，然后继续解析文档（2）设置 async 异步加载脚本，脚本加载完立即执行脚本（3）设置defer异步加载脚本，等待文档解析完执行脚本...

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

引言博客园是本人每日必逛的一个IT社区。尽管博文以.net技术居多，但是相对于CSDN这种业务杂乱、体系庞大的平台，博客园的纯粹更得我青睐。之前在园子里也见过不少讲解为博客园编写客户端的博文。不过似乎都是移动端的技术为主。这篇博文开始讲讲如何在PC端编写一个博客园客户端程序。一方面是因为本人对于博客园的感情；另一方面也想用Qt写点什么东西出来。毕竟在实践中学习收效更快。登录过程分析登录功能是一个...

html5 audio音频播放全解析【代码】【图】

html5开启了一个新时代，因为它让浏览器本身变得不那么被动，audio api就是一个典型的列子，在html5还没确定之前，如果想要在网页上听音乐看视频唯一的办法就是用flash意思是当你没有给浏览器装载Flash插件的话那么音乐视频即是空谈，html5 audio的出现改变了这一格局，因为你可以不用Flash插件就可以听音乐看视频，当然这些能否实现还跟你用的浏览器有关。 1.html5 audio的语法以及属性和方法使用语法<audio src="song.mp3" con...

HTML_a标签的href属性取值解析

定义和用法<a> 标签的 href 属性用于指定超链接目标的 URL。href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符和 JavaScript 代码段。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档，或者执行 JavaScript 表达式、方法和函数的列表。 1 <a href="路径"></a>这种方法最常见，点击a标签，页面将会跳转到href指定的路径页面下。这里的路径可以是绝对路径，也可以是...

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack 最近处于毕业设计开始阶段，前期工作需要去国外的一些专业数据库网站比对一些所需TF家族信息，为了快捷方便，想到用程序去帮助实现。前期实现了一系列的尝试，使用C#的的网络编程类库，获取查询结果，但是为了分析其中的结果并进行比对，我最开始尝试了两天之久的正则表达式，最后发现在解析这样的HTML文档的时候，花费时间太多，因此开始改变策略，最后得知MSHTML和HAP这两个...

关于源码输出,浏览器不解析Html标签【图】

有时候根据需要我们需要看到浏览器上源码效果如:但是我如果在html中输入 <a href = ‘http://www.baidu.com‘>百度</a>那么问题来了,总是显示这种效果说明html源被解析,哦No可是这不是我们想到的效果没事我们看一看 w3c效果是不是看出什到来了,我们要用到pre标签中给我们呈现某种需要如 < , >这些符号在编辑源码：哦　真相大白如下:原文：http://www.cnblogs.com/yzenet/p/4720030.html

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式： public static HtmlDocument LoadHtmlByUrls(string url) { HtmlDocument htmldoc; HtmlWeb htmlWeb = new HtmlWeb(); //不够完善此内置方法导致中文乱码 //htmlWeb.OverrideEncoding = Encoding.UTF8; htmldoc = htmlWeb.Load(url); Encoding coding = htmldoc.StreamEncoding; htmlWeb.Over...

Python_lxml解析HTML【代码】

1.Python解析XML的常用方法有以下几种：1、DOM解析, xml.dom.*模块。 2、SAX解析, xml.sax.*模块。 3、ET解析, xml.etree.ElementTree模块。 4、lxml解析,并结合XPath提取元素。 01.说明：lxml有两大部分，分别支持XML和HTML的解析：lxml.etree 解析 XMLlxml.html 解析 html from lxml import etree, html 02.lxml解析#01.导入相关标准库from lxml import etree #02.定义解析器parser = etree.XMLParser(encoding = "utf-8") #03...

vbs 解析 html 文档【图】

关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有js都不会被执行，只是干干净净的dom文档，所以在逼不得已的情况下开启 designMode 一般情况保持默认即可。Set html = CreateObject("htmlfile")Set http = CreateObject("Msxml2.ServerXMLHTTP")html.designMode = "on" ‘ 开启编...

Jsoup解析html页面实现CSDN博客客户端【图】

这段时间课比较少，我用Jsoup解析html写了一个阅读CSDN博客的app。已经实现的功能有：1、阅读博客频道首页最新|最热的文章：2、浏览所有专栏&阅读其中的文章：3、阅读热门文章：4、查看指定id用户的所有文章：整个程序运行起来的样子大概就是这个样子..核心代码：下载指定的html页面 ——> 使用Jsoup解析，获取自己需要的元素。了解Jsoup的同学都知道很简单的。由于时间&水平有限，app界面很简陋，可能会有些BUG。而且有一个问题没...

首页 / HTML / php解析html类库simple_html_dom(详细介绍)

php解析html类库simple_html_dom(详细介绍)

内容导读

内容图文

内容总结

内容备注

内容手机端

【php解析html类库simple_html_dom(详细介绍)】教程文章相关的互联网学习教程文章

jsoup解析Html

Delphi 解析HTML【代码】

html新增结构元素解析【代码】

解析PHP生成静态html文件的三种方法

Python实现简单HTML表格解析的方法【代码】

HTML解析过程

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

html5 audio音频播放全解析【代码】【图】

HTML_a标签的href属性取值解析

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

关于源码输出,浏览器不解析Html标签【图】

关于HtmlAgilityPack解析页面中数据乱码问题

Python_lxml解析HTML【代码】

vbs 解析 html 文档【图】

Jsoup解析html页面实现CSDN博客客户端【图】

HTML - 相关标签

PHP - 相关标签

DOM - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程