首页 / HTML / php – 用于解析HTML(而不是正则表达式)的DOMDocument

php – 用于解析HTML(而不是正则表达式)的DOMDocument

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php – 用于解析HTML(而不是正则表达式)的DOMDocument，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1846字，纯文字阅读大概需要3分钟。

内容图文

我正在尝试使用DOMDocument来解析HTML代码.

我只是在做一些简单的工作,我已经在scrap data using regex and simplehtmldom上喜欢gordon的答案,并根据他的工作编写了我的代码.

我发现PHP.net上的文档不是很好,因为信息有限,几乎没有示例,大多数细节都是基于解析XML.

<?php
$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadHTMLFile('http://www.nu.nl/internet/1106541/taalunie-keurt-open-sourcewoordenlijst-goed.html');
libxml_clear_errors();

$recipe = array();
$xpath = new DOMXPath($dom);
$contentDiv = $dom->getElementById('page'); // would have preferred getContentbyClass('content') (unique) in this case.

# title
print_r($xpath->evaluate('string(div/div/div/div/div/h1)', $contentDiv));

# content (this is not working)
#print_r($xpath->evaluate('string(div/div/div/div['content'])', $contentDiv)); // if only this worked
print_r($xpath->evaluate('string(div/div/div/div)', $contentDiv));
?>

出于测试目的,我试图获取nu.nl新闻文章的标题(在h1标签之间)和内容(HTML).

正如你所看到的,我可以得到标题,虽然我对那个评估字符串甚至不满意,因为它恰好是该div级别上唯一的h1标签.

解决方法:

以下是使用DOM和XPath的方法：

$dom = new DOMDocument;
libxml_use_internal_errors(true);
$dom->loadHTMLFile('http://www.nu.nl/…');
libxml_clear_errors();

$xpath = new DOMXPath($dom);
echo $xpath->evaluate('string(id("leadarticle")/div/h1)');
echo $dom->saveHtml(
    $xpath->evaluate('id("leadarticle")/div[@class="content"]')->item(0)
);

XPath字符串(id(“leadarticle”)/ div / h1)将返回h1的textContent,它是div的子节点,div是具有id leadarticle的元素的子节点.

XPath id(“leadarticle”)/ div [@ class =“content”]将返回具有class属性内容的div,该属性内容是具有id leadarticle的元素的子元素.

因为您需要内容div的outerHTML,所以您必须获取整个节点而不仅仅是内容,因此没有string() function in the XPath.将节点传递给DOMDocument::saveHTML()方法(which is only possible as of 5.3.6)会将该节点序列化为HTML.

内容总结

以上是互联网集市为您收集整理的php – 用于解析HTML(而不是正则表达式)的DOMDocument全部内容，希望文章能够帮你解决php – 用于解析HTML(而不是正则表达式)的DOMDocument所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/706119.html

来源：【匿名】

【上一篇】c – 添加支持以在基于对话框的MFC应用程序中打印和预览HTML 【下一篇】PHP 和 HTML

更多 ►

【php – 用于解析HTML(而不是正则表达式)的DOMDocument】教程文章相关的互联网学习教程文章

PHP中如何使用DOMDocument来处理HTML、XML文档【代码】

PHP中使用DOMDocument来处理HTML、XML文档其实从PHP5开始，PHP就为我们提供了一个强大的解析和生成XML相关操作的类，也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容，学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。解析HTML// 解析 HTML $baidu = file_get_contents(https://www.baidu.com);$doc = new DOMDocument(); @$doc->loadHTML($baidu);...

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP教程【图】

在这一章节里，我们来了解下如何利用核心(core) PHP 生成 HTML 文件最近我在查询 php.com 的时候，发现 DOMDocument 这个类非常的有意思，可以用来生成 XML 或 HTML 文件， DOMDocument 为我们提供了一系列的方法来生成 XML/HTML 标签并插入到 DOM 中，现在就让我们来看下如何生成的这里先来看下，利用它所提供的方法生成的效果, 见下图:一、创建新的 DOM 文件代码如下://实例化 DOMDocument 类，并指定版本号 $dom = new DO...

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP【图】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_php实例【图】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）【图】

解决phpQuery(DOMDocument)解析部分HTML会产生乱码的问题_html/css_WEB-ITnose

可能是由于头部一些空白非法字符或者无法正常解析其他原因导致不能正常识别解析解决办法：在载入文当前拼凑 DOM:$dom = new DOMDocument(); $dom->loadHTML(.$html);phpQuery:phpQuery::newDocument(.$html)

PHP DomDocument HTML操作【代码】

我有以下HTML.<div id="container"><div id="current">Current Div</div> </div>我在PHP中使用DomDocument,试图在id为“ current”的div之前向HTML添加一个额外的div.<div id="container"><div id="new">New Div</div><div id="current">Current Div</div> </div>当我使用以下代码时,似乎在div内添加了div,其ID为“ current”,但在该div的内容之前.有人可以告诉我这是为什么,以及如何获得类似于上述HTML的结果？ (请参见下面的HTML...

php-从HTML ysubg DOMDocument获取特定ID内的第二个p标签【代码】

如何从第二个< p>获取内容使用DOMDocument在ID为mydiv的div中添加标签？例如,我的HTML可能如下所示：<div class='mydiv'> <p><img src='xx.jpg'></p> <p>i need here</p> <p>lorem ipsum lorem ipsum</p> </div>我正在尝试提取以下文本：i need here我该怎么做？解决方法:从第n个< p>获取内容.标签：使用DOMDocument::getElementsByTagName()获得所有< p>标签,并使用item()从返回的DOMNodeList中检索第二个标签的节点值：$index ...

使用PHP DomDocument区分HTML和XML

有什么方法可以通过PHP DomDocument区分XML和HTML？我看着docs,什么也没找到. 我正在寻找类似check($string)的函数,该函数为每个$string返回’is XML’或’is HTML’. SO中的这些similar questions here并没有帮助我.解决方法:没有这样的功能,但是您可以放心,当DOMDocument::loadXML()返回true(将恢复设置为false)时,某些$string是格式正确的XML. HTML文档因此失败. 对于HTML,您可以使用DOMDocument::loadHTML()检查是否可以将文档...

PHP DOMDocument表,但保留内部HTML内容【代码】

我正在尝试显示HTML表中的每一行,并将内部HTML标记保留在结果中,但我无法使其正常工作,并且一直剥夺HTML内部标记对我来说是从中获取每一行的最佳选择HTML表并在结果中保留内部HTML标记？这是我目前正在使用的代码以使其正常工作：<?phpfunction tdrows($elements){$str = "";foreach ($elements as $element) {$str .= $element->nodeValue . ", ";}return $str;}function getdata(){$content = "<table border="0" cellspacing="...

php – 删除父元素,使用saveHTML保留DOMDocument中的所有内部子元素【代码】

我正在使用XPath操作一个简短的HTML片段;当我使用$doc-> saveHTML()输出更改后的代码段时,会添加DOCTYPE,并且HTML / BODY标记会包装输出.我想删除它们,但只使用DOMDocument函数将所有子项保留在内部.例如：$doc = new DOMDocument(); $doc->loadHTML('<p><strong>Title...</strong></p> <a href="http://www....."><img src="http://" alt=""></a> <p>...to be one of those crowning achievements...</p>'); // manipulation goes...

php – 用于解析HTML(而不是正则表达式)的DOMDocument【代码】

我正在尝试使用DOMDocument来解析HTML代码. 我只是在做一些简单的工作,我已经在scrap data using regex and simplehtmldom上喜欢gordon的答案,并根据他的工作编写了我的代码. 我发现PHP.net上的文档不是很好,因为信息有限,几乎没有示例,大多数细节都是基于解析XML.<?php $dom = new DOMDocument; libxml_use_internal_errors(true); $dom->loadHTMLFile('http://www.nu.nl/internet/1106541/taalunie-keurt-open-sourcewoordenlijs...

php – DOMDocument：如何通过换行符分隔内部HTML作为字符串？【代码】

<blockquote><p>2 1/2 cups sweet cherries, pitted<br>1 tablespoon cornstarch <br>1/4 cup fine-grain natural cane sugar</p> </blockquote>嗨,我想在’p’标签内得到文字.你看到有三条不同的线,我想在每行添加一些额外的文字后单独打印它们.这是我的代码块$tags = $dom->getElementsByTagName('blockquote');foreach($tags as $tag){$datas = $tag->getElementsByTagName('p');foreach($datas as $data){$line = $data->nodeV...

加载时间：用PHP的DOMDocument或正则表达式解析HTML是否更快？【代码】

我正在将我的Flickr帐户中的图像拖到我的网站上,并且我使用了大约九行代码来创建一个可以拉动图像的preg_match_all函数. 我已多次阅读过,通过DOM解析HTML会更好. 就个人而言,我发现通过DOM解析HTML更加复杂.我编写了一个类似的函数来使用PHP的DOMDocument来提取图像,它大约有22行代码.创建需要一段时间,我不确定它的好处是什么. 每个代码的页面大约在同一时间加载,所以我不确定为什么我会使用DOMDocument. DOMDocument的工作速度是...

php – 如何通过使用xpath和domdocument来切断内部html的一部分并将其存储为html字符串？【代码】

我想切断html的一些部分,我可以通过使用XPath和DomDocument来解决它,但问题是我需要结果作为HTML代码字符串.通常我会使用reg. EXPR.为此,但我不想做一个复杂的搜索模式,将标记的开头和结尾. 这是示例输入：some html code before <div>this <b>is</b> what I want</div> some html after和输出：<div>this <b>is</b> what I want</div>我试过这样的事情：subject = 'some html code before <div>this <b>is</b> what I want</div> ...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / php – 用于解析HTML(而不是正则表达式)的DOMDocument

php – 用于解析HTML(而不是正则表达式)的DOMDocument

内容导读

内容图文

内容总结

内容备注

内容手机端

【php – 用于解析HTML(而不是正则表达式)的DOMDocument】教程文章相关的互联网学习教程文章

PHP中如何使用DOMDocument来处理HTML、XML文档【代码】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP教程【图】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP【图】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_php实例【图】

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）【图】

解决phpQuery(DOMDocument)解析部分HTML会产生乱码的问题_html/css_WEB-ITnose

PHP DomDocument HTML操作【代码】

php-从HTML ysubg DOMDocument获取特定ID内的第二个p标签【代码】

使用PHP DomDocument区分HTML和XML

PHP DOMDocument表,但保留内部HTML内容【代码】

php – 删除父元素,使用saveHTML保留DOMDocument中的所有内部子元素【代码】

php – 用于解析HTML(而不是正则表达式)的DOMDocument【代码】

php – DOMDocument：如何通过换行符分隔内部HTML作为字符串？【代码】

加载时间：用PHP的DOMDocument或正则表达式解析HTML是否更快？【代码】

php – 如何通过使用xpath和domdocument来切断内部html的一部分并将其存储为html字符串？【代码】

正则表达式 - 相关标签

HTML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程