首页 / HTML / 使用简单的html dom的php webscraping在输出无序的html标签时不起作用

使用简单的html dom的php webscraping在输出无序的html标签时不起作用

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用简单的html dom的php webscraping在输出无序的html标签时不起作用，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2445字，纯文字阅读大概需要4分钟。

内容图文

使用简单的html dom的php webscraping在输出无序的html标签时不起作用

我想废弃网页的一些信息.它使用表格布局结构.

我想在嵌套表格布局中提取第三个表格,其中包含一系列嵌套表格.每个发布一个结果.但代码不起作用

include('simple_html_dom.php');
$url = 'http://exams.keralauniversity.ac.in/Login/index.php?reslt=1';
$html = file_get_contents($url);
$result =$html->find("table", 2);
echo $result;

我使用Curl来提取网站,但问题是它的标签是乱序的,因此无法使用简单的dom元素提取它.

    function curl($url) {
            $ch = curl_init();  // Initialising cURL
            curl_setopt($ch, CURLOPT_URL,$url);    // Setting cURL's URL option with the $url variable passed into the function
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); // Setting cURL's option to return the webpage data
            $data = curl_exec($ch); // Executing the cURL request and assigning the returned data to the $data variable
            curl_close($ch);    // Closing cURL
            return $data;   // Returning the data from the function
        }

          function scrape_between($data, $start, $end){
        $data = stristr($data, $start); // Stripping all data from before $start
        $data = substr($data, strlen($start));  // Stripping $start
        $stop = stripos($data, $end);   // Getting the position of the $end of the data to scrape
        $data = substr($data, 0, $stop);    // Stripping all data from after and including the $end of the data to scrape
        return $data;   // Returning the scraped data from the function
    }
          $scraped_page  = curl($url);  // Executing our curl function to scrape the webpage http://www.example.com and return the results into the $scraped_website variable

           $scraped_data = scrape_between($scraped_page, ' </html>', '</table></td><td></td></tr>
   </table>');  
 echo $scraped_data;
 $myfile = fopen("newfile.html", "w") or die("Unable to open file!");

fwrite($myfile, $scraped_data);
fclose($myfile);

如何刮取结果并保存pdf

解决方法:

简单的HTML Dom无法处理该HTML.所以先切换到this library,
然后做：

require_once('advanced_html_dom.php');

$dom = file_get_html('http://exams.keralauniversity.ac.in/Login/index.php?reslt=1');

$rows = array();
foreach($dom->find('tr.Function_Text_Normal:has(td[3])') as $tr){
  $row['num'] = $tr->find('td[2]', 0)->text;
  $row['text'] = $tr->find('td[3]', 0)->text;
  $row['pdf'] = $tr->find('td[3] a', 0)->href;
  if(preg_match_all('/\d+/', $tr->parent->find('u', 0)->text, $m)){
    list($row['day'], $row['month'], $row['year']) = $m[0];
  }

  // uncomment next 2 lines to save the pdf
  // $filename = preg_replace('/.*\//', '', $row['pdf']);
  // file_put_contents($filename, file_get_contents($row['pdf']));
  $rows[] = $row;
}
var_dump($rows);

内容总结

以上是互联网集市为您收集整理的使用简单的html dom的php webscraping在输出无序的html标签时不起作用全部内容，希望文章能够帮你解决使用简单的html dom的php webscraping在输出无序的html标签时不起作用所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/826531.html

来源：【匿名】

【上一篇】php – 使用HTML标签进行本地化【下一篇】PHP 和 HTML

更多 ►

【使用简单的html dom的php webscraping在输出无序的html标签时不起作用】教程文章相关的互联网学习教程文章

angularjs 可以加入html标签方法------ng-bind-html的用法总结（2）【代码】【图】

angular-ngSanitize模块-$sanitize服务详解本篇主要讲解angular中的$sanitize这个服务.此服务依赖于ngSanitize模块.要学习这个服务,先要了解另一个指令: ng-bing-html.顾名思义,ng-bind-html和ng-bind的区别就是,ng-bind把值作为字符串,和元素的内容进行绑定,但是ng-bind-html把值作为html,和元素的html进行绑定.相当于jq里面的.text()和.html().但是,出于安全考虑,如果我们直接使用ng-bind-html是会报错的,ng-bind-html后面的内容...

HTML标签总结【代码】

1. HTML常用标记：属性值需要带等号连接，属性值需要带引号(单、双引号都可以文本标题：h1~h6 i. h1:一般应用在网页文章标题，网站的logo处 ii. h2:新闻稿件的标题，或者是二级标题处 iii. h3:新闻稿件居多，布局元素中有加粗效果 iv. h4~h6:根据实际情况选择应用段落文本：p空格： &emsp;(能够实现空出一个字符)换行：<br/>水平线：<hr/>加粗： i. <b>加粗的内容</b> 只是显示加粗 ii. <strong>强调的内容</strong> 突出的文...

解决JSON包含HTML标签无法显示的问题

主要是将json无法识别的字符进行转义 function dotran($str) { $str = str_replace(‘"‘,‘//"‘,$str); $str = str_replace("/r/n",‘//r//n‘,$str); $str = str_replace("/t",‘//t‘,$str); $str = str_replace("//",‘//‘,$str); $str = str_replace("/b",‘//b‘,$str); return $str; }这样返回的数据就可以正常显示，下面是转换后的内容：jsontext=‘{"jqry":[{"id":"12...

超级简单却不知道：html标签的嵌套规则

XHTML的标签有许多：div、ul、li、dl、dt、dd、h1~h6、p、a、addressa、span、 strong……我们在运用这些标签搭建页面结构的时候，是可以将它们无限嵌套的，但是，嵌套也需要有一定规则，不能任由自己的个人习惯胡乱嵌套，那么，html标签的嵌套规则有哪些呢？　　一、HTML 标签包括块级元素(block)、内嵌元素（inline）　　1、块级元素　　一般用来搭建网站架构、布局、承载内容……它包括以下这些标签：　　address、blockquote、...

JS HTML标签尺寸距离位置定位计算【图】

四种浏览器对 clientHeight、offsetHeight、scrollHeight、clientWidth、offsetWidth 和 scrollWidth 的解释差异网页可见区域宽：document.body.clientWidth网页可见区域高：document.body.clientHeight网页可见区域宽：document.body.offsetWidth (包括边线的宽)网页可见区域高：document.body.offsetHeight (包括边线的宽)网页正文全文宽：document.body.scrollWidth网页正文全文高：document.body.scrollHeight网页被卷去的高：...

html标签中英文对照,更好理解html标签

HTML标签英文全称中文释义aAnchor锚abbrAbbreviation缩写词acronymAcronym取首字母的缩写词address Address地址dfn Defines a Definition Term定义定义条目kbd Keyboard键盘（文本）samp Sample示例（文本var Variable变量（文本）tt Teletype打印机（文本）codeCode源代码（文本）prePreformatted预定义格式（文本）blockquote Block Quotation区块引用语cite ...

HTML标签marquee实现滚动效果【代码】

页面的自动滚动效果，可由javascript来实现，但是今天无意中发现了一个html标签 - <marquee></marquee>可以实现多种滚动效果，无需js控制。使用marquee标记不仅可以移动文字，也可以移动图片，表格等.语法：<marquee>...</marquee>；说明：在标记之间添加要进行滚动的内容。重要属性：1.滚动方向direction（包括4个值：up、 down、 left和 right）　　语法：<marquee direction="滚动方向">...</marquee>2.滚动方式behavior（scro...

Angular绑定数据时转义html标签【代码】

AngularJs在绑定数据时默认会以文本的形式出现在页面上，比如我现在有这样一段代码<div ng-controller="testCtrl">{{data}}</div>function testCtrl($scope) {$scope.data = ‘<span class="red">标红</span>‘; } 那么在页面上必然会在也面上直接显示 <span class="red">标红</span>要想让包含html标签的字符串，能在页面上正常显示，就必须将其转义，此时就要用到angularjs的ng-bind-html，它可以将包含html标签的字符串进...

去掉html标签

function getridofTag(e, num) { var desc = e; var reg = /<[^<>]+>/g; desc = desc.replace(/<[^<>]+>/g, ‘‘); desc = desc.replace(/\&ensp/g, "：") desc = subdata(desc, num); return desc;}e表示含有html的字段。num表示需要取得字段数量原文：http://www.cnblogs.com/luoshang/p/7284983.html

html5标签收集

HTML标签用法【代码】

<!DOCTYPE> 声明必须位于 <html> 标签之前。它不是 HTML 标签；它是指示 web 浏览器关于页面使用哪个 HTML 版本进行编写的指令。信息输入标签：input1.插入文本框——text（单行文本）<input name="表单名称" type="text" maxlength="输入字符串最大长度" size="宽度改变" value="默认值" />2.插入密码框——password<input name="" type="password" maxlength="" size="" />3.插入文件域——file（选择并返回文件）<input name=""...

Java对html标签的过滤和清洗【代码】

OWASP HTML Sanitizer 是一个简单快捷的java类库，主要用于放置XSS优点如下：　　1.使用简单。不需要繁琐的xml配置，只用在代码中少量的编码　　2.由Mike Samuel（谷歌工程师）维护　　3.通过了AntiSamy超过95%的UT覆盖　　4.高性能，低内存消耗　　5.是 AntiSamy DOM性能的4倍 1.POM中增加 <dependency><groupId>com.googlecode.owasp-java-html-sanitizer</groupId><artifactId>owasp-java-html-sanit...

Java中替换HTML标签的方法

1、替换HTML标签replaceAll("\\&[a-zA-Z]{0,9};", "").replaceAll("<[^>]*>", "\n\t")源码如下：/*** 字符串替换*/ package com.you.model;/*** HTML标签替换* @author YHD* @version*/ public class StrReplace {/*** @param args*/public static void main(String[] args) {String str = " <table border=‘1‘ cellpadding=‘1‘ cellspacing=‘1‘><tr><th rowspan=‘2‘>序号</th><th colspan=‘2‘>李四</th><th>赵六</th></...

HTML标签 11.02

1、DW快捷键的使用　　ctrl + c v x a 　　ctrl + d 复制当前行　　ctrl + h 快捷提示　　ctrl + 鼠标左键多个光标　　alt + 鼠标左键垂直光标　　tab 　制表符缩进快速补全标签　　shift + tab 往前缩进　　ctrl + / 一次是开两次是开关 2、3、颜色的三种写法　　　　16进制 #000000 　　　　英文字母 red 　　　　rgba rgba(0，0，0，0.5)...

PHP过滤各种HTML标签【代码】

$str=preg_replace("/<\s*img\s+[^>]*?src\s*=\s*(\‘|\")(.*?)\\1[^>]*?\/?\s*>/i", " ", $str); //过滤img标签$str=preg_replace("/\s+/", " ", $str); //过滤多余回车$str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格)$str=preg_replace("/<\!--.*?-->/si","",$str); //注释$str=preg_replace("/<(\!.*?)>/si","",$str); //过滤DOCTYPE$str=preg_replace("/<(\/?html.*?)>/si","",$str); //过滤html标签$st...

首页 / HTML / 使用简单的html dom的php webscraping在输出无序的html标签时不起作用

使用简单的html dom的php webscraping在输出无序的html标签时不起作用

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用简单的html dom的php webscraping在输出无序的html标签时不起作用】教程文章相关的互联网学习教程文章

angularjs 可以加入html标签方法------ng-bind-html的用法总结（2）【代码】【图】

HTML标签总结【代码】

解决JSON包含HTML标签无法显示的问题

超级简单却不知道：html标签的嵌套规则

JS HTML标签尺寸距离位置定位计算【图】

html标签中英文对照,更好理解html标签

HTML标签marquee实现滚动效果【代码】

Angular绑定数据时转义html标签【代码】

去掉html标签

html5标签收集

HTML标签用法【代码】

Java对html标签的过滤和清洗【代码】

Java中替换HTML标签的方法

HTML标签 11.02

PHP过滤各种HTML标签【代码】

HTML - 相关标签

PHP - 相关标签

DOM - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程