首页 / PHP / php-使用DOMDocument的Web刮板

php-使用DOMDocument的Web刮板

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php-使用DOMDocument的Web刮板，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1462字，纯文字阅读大概需要3分钟。

内容图文

我试图使用file_get_contents抓取HTML,然后使用DOMDocument对象来抓取网页内容.我的问题是我无法获得适当的信息.我不确定这是因为我使用DOMDocument的方法错误,还是源中的(X)HTML不好.

在源代码中,有一个ID为’cards’的元素,其中有两个子div.我想要第一个孩子,该孩子有很多孩子div,而孩子又有一个固定孩子和div孩子.我想要来自锚点的href和来自其子div的nodeValue.

结构是这样的：

<div id="cards">
    <div class="grid">
        <div class="card-wrap">
            <a href="linkValue">
                <img src="..."/>
                <div>nameValue</div>
            </a>
        </div>
        ...
   </div>
   <div id="...">
   </div>
</div>

我从$cards = $dom-> getElementById(“ cards”)开始.我得到一个DOMText对象,一个DOMElement对象,一个DOMText对象,一个DOMElement对象和一个DOMText对象.然后,我使用$grid = $cards-> childNodes-> item(1)获取第一个DOMElement对象,该对象大概是.grid元素.但是,当我使用以下命令遍历$grid时：

foreach($grid->childNodes as $item){
    if($item->nodeName == "div"){
        echo $item->nodeName,' | ',$item->nodeValue,'<br>';
    }
}

我最终看到一个充满“ div | nameValue”的页面,其中nameValue是嵌入式div的nodeValue,但是我无法找到锚来获取其href值.

我的DOMDocument是否明显做错了,还是这里还有其他事情？

解决方法:

好吧,从您的示例代码if($item-> nodeName ==“ div”){很可能会排除任何< a>标签.另外,我不认为childNodes允许递归迭代.

因此,要访问有问题的节点,可以使用：

$children = $dom->getElementById("cards")->childNodes
                ->item(1)->childNodes->item(1)->childNodes;

但是,正如您所看到的,这非常混乱……XPath简介：

> http://php.net/manual/en/class.domxpath.php
> http://www.w3schools.com/xpath/xpath_syntax.asp

内容总结

以上是互联网集市为您收集整理的php-使用DOMDocument的Web刮板全部内容，希望文章能够帮你解决php-使用DOMDocument的Web刮板所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/661322.html

来源：【匿名】

【上一篇】PhalconPHP-解析错误时..之前的扫描错误【下一篇】PHP 5 数据对象 (PDO) 抽象层与 Oracle

更多 ►

【php-使用DOMDocument的Web刮板】教程文章相关的互联网学习教程文章

PHP中如何使用DOMDocument来处理HTML、XML文档【代码】

PHP中使用DOMDocument来处理HTML、XML文档其实从PHP5开始，PHP就为我们提供了一个强大的解析和生成XML相关操作的类，也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容，学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。解析HTML// 解析 HTML $baidu = file_get_contents(https://www.baidu.com);$doc = new DOMDocument(); @$doc->loadHTML($baidu);...

php domdocument中文乱码怎么办【代码】【图】

php domdocument中文乱码的解决办法：首先打开相应的文件；然后进行编码声明，语句为“$dom->loadHTML(mb_convert_encoding($profile, HTML-ENTITIES,UTF-8))”。推荐：《PHP视频教程》PHP DOMDocument loadHTML出现乱码的解决方法DOMDocument::loadHTML默认编码是ISO-8859-1，所以我们需要做编码声明：$dom->loadHTML(mb_convert_encoding($profile, HTML-ENTITIES, UTF-8));完整测试代码：$profile = <div><p>イリノイ州シカゴに...

PHP实现基于DOMDocument解析和生成xml的方法详解【图】

这篇文章主要介绍了PHP基于DOMDocument解析和生成xml的方法,结合具体实例形式分析了php使用DOMDocument解析xml节点及xml文件生成的各种常用操作技巧,需要的朋友可以参考下1. xml的生成DOMDocument操作xml要比先前的simplexml要复杂一点，我觉得simplexml就想Java里的dom4j,不管怎样原理都是一样的。如果把DOMDocument里的节点，属性看做是枝叶那么DOMDocument的DOMDocument就是根，节点和属性都挂载在这个对象下面。看看下面的代码...

PHP利用DOMDocument操作xml方法详解【图】

这篇文章主要介绍了PHP基于DOMDocument解析和生成xml的方法,结合具体实例形式分析了php使用DOMDocument解析xml节点及xml文件生成的各种常用操作技巧,需要的朋友可以参考下本文实例讲述了PHP基于DOMDocument解析和生成xml的方法。分享给大家供大家参考，具体如下：前面和大家分享了SimpleXML操作xml的一些知识，但是php中除了simplexml还有DOMDocument，这次就着重来看看DOMDocument的用法，还是把生成xml和解析xml分开写1. xml的生...

PHPXML操作类DOMDocument

DOMDocument相关的内容. 属性: Attributes 存储节点的属性列表(只读) childNodes 存储节点的子节点列表(只读) dataType 返回此节点的数据类型 Definition 以DTD或XML模式给出的节点的定义(只读) Doctype 指定文档类型节点(只读) documentElement 返回文档的根元素(可读写) firstChild 返回当前节点的第一个子节点(只读) Implementation 返回XMLDOMImplementation对象 lastChild 返回当前节点最后一个子节点(只读) nextSibling 返回...

PHP中DOMDocument保存xml时中文出现乱码问题的解决方案

php中DOMDocument对于xml操作我们只要是英文是没有问题了,但如果是中文字体就会有乱码问题了,下面我们就此问题给各位介绍一些解决办法吧.PHP的DOM内部是utf8机制的,在loadHTML时,是通过检查字符中meta的charset来设置编码的,如果没有charset,就当iso8859进行处理了,而这种情况下进行saveXML时,输出来的却是utf8,所以就看到乱码了.这么说是不是还不太理解,举个例子:$xml = new DOMDocument(); @$xml->loadHTML(<div>我就是测试看看<...

php读取xml的方法一---DOMDocument读取xml

XML（Extensible Markup Language）即可扩展标记语言，它与HTML一样，都是SGML(Standard Generalized Markup Language,标准通用标记语言)。 xml源文件张映男 28 tank 男 28 $doc = new DOMDocument(); $doc->load('person.xml'); //读取xml文件 $humans = $doc->getElementsByTagName( "humans" ); //取得humans标签的对象数组 foreach( $humans as $human ) { $names = $human->g...

PHPXML操作类DOMDocument_PHP教程

php中DOMDocument简单用法示例代码(XML创建、添加、删除、修改)_PHP教程

共分四个文件，分别是创建、增加、删除、修改四个功能，变量都是写死的，改一改用$_POST方式接收就可以用了 //index.php 创建功能代码如下:$xmlpatch = 'index.xml'; $_id = '1'; $_title = 'title1'; $_content = 'content1'; $_author = 'author1'; $_sendtime = 'time1'; $_htmlpatch = '1.html'; jb51.net$doc = new DOMDocument('1.0', 'utf-8'); $doc -> formatOutput = true; jb51.net$root = $doc -> createElement('roo...

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP教程【图】

在这一章节里，我们来了解下如何利用核心(core) PHP 生成 HTML 文件最近我在查询 php.com 的时候，发现 DOMDocument 这个类非常的有意思，可以用来生成 XML 或 HTML 文件， DOMDocument 为我们提供了一系列的方法来生成 XML/HTML 标签并插入到 DOM 中，现在就让我们来看下如何生成的这里先来看下，利用它所提供的方法生成的效果, 见下图:一、创建新的 DOM 文件代码如下://实例化 DOMDocument 类，并指定版本号 $dom = new DO...

使用DOMDocument抓取数据并分类

http://smart-phones.biyixia.com/node/1013 <?php/** * Created by PhpStorm. * User: Admin * Date: 13-11-14 * Time: 下午10:42 */$link[]=array();$page_url=http://smart-phones.biyixia.com/node/1013;//$content=get_data($page_url);$doc= new DOMDocument();@$doc->loadHTMLFile($page_url);$div_contents = $doc->getElementsByTagName(div);print_r($div_contents);foreach($div_contents as $div_content ){ $...

DOMDocument::saveXML返回值为空字符串

PHP saveXML PHP手册中的的实例： $doc = new DOMDocument(1.0); // we want a nice output $doc->formatOutput = true; $root = $doc->createElement(book); $root = $doc->appendChild($root); $title = $doc->createElement(title); $title = $root->appendChild($title); $text = $doc->createTextNode(This is the title); $text = $title->appendChild($text); echo "Saving all the document:\n"; $xmlCont...

PHP的DOMDocument遇到的小问题

PHP的 DOMDocument 怎么在根节点前插入数据？比如我要在前插入：结果为： title 回复讨论(解决方案) urlset也算是一个节点，你创建了这个节点，然后找哪个父节点去append？ file_get_contents+ file_put_contents file_get_contents+ file_put_contents 这样操作当然没问题。就是不知道PHP的 DOMDocument可不可以。 urlset也算是一个节点，你创建了这个节点，然后找哪个父节点去...

怎样在类里面创建DOMDocument对象变量?该如何处理

怎样在类里面创建DOMDocument对象变量?class XXX{private $_music = new DOMDocument();}这样就报错了，然而不在类里面直接这样的话$_music = new DOMDocument();就不报错，请问在类里面要怎样才能创建这样的对象变量?------解决方案-------------------- 语法错误而已，摘自手册属性中的变量可以初始化，但是初始化的值必须是常数，这里的常数是指php脚本在编译阶段时就为常数，而不是在编译阶段之后在运行阶段运算出的常数。一般...

关于phpdom能不可不用DOMDocument->load直接读取写在当前php的xml

关于php dom能不能不用DOMDocument->load 直接读取写在当前php的xml请问大家php dom能不能不用DOMDocument->load 读取在其他位置的文件，而直接读取以string写在当前php文件里的xml，还有有没有方法直接在网页打印出DOMDocument中的xml内容而不用DOMDocument->save 保存到另一个文件当中。没有找到方法，求大家能告诉我一下。谢谢------解决方案--------------------手册： class DOMDocument { bool loadXML ( string sour...

首页 / PHP / php-使用DOMDocument的Web刮板

php-使用DOMDocument的Web刮板

内容导读

内容图文

内容总结

内容备注

内容手机端

【php-使用DOMDocument的Web刮板】教程文章相关的互联网学习教程文章

PHP中如何使用DOMDocument来处理HTML、XML文档【代码】

php domdocument中文乱码怎么办【代码】【图】

PHP实现基于DOMDocument解析和生成xml的方法详解【图】

PHP利用DOMDocument操作xml方法详解【图】

PHPXML操作类DOMDocument

PHP中DOMDocument保存xml时中文出现乱码问题的解决方案

php读取xml的方法一---DOMDocument读取xml

PHPXML操作类DOMDocument_PHP教程

php中DOMDocument简单用法示例代码(XML创建、添加、删除、修改)_PHP教程

PHP使用DOMDocument类生成HTML实例（包含常见标签元素）_PHP教程【图】

使用DOMDocument抓取数据并分类

DOMDocument::saveXML返回值为空字符串

PHP的DOMDocument遇到的小问题

怎样在类里面创建DOMDocument对象变量?该如何处理

关于phpdom能不可不用DOMDocument->load直接读取写在当前php的xml

PHP - 相关标签

DOM - 相关标签

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程