首页 / HTML / simple是什么意思PHPsimple_html_domphp+正则采集文章代码

simple是什么意思PHPsimple_html_domphp+正则采集文章代码

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了simple是什么意思PHPsimple_html_domphp+正则采集文章代码，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1764字，纯文字阅读大概需要3分钟。

内容图文

simple是什么意思PHPsimple_html_domphp+正则采集文章代码

代码如下:

//包含PHP Simple html Dom 类库文件
include_once('./simplehtmldom/simple_html_dom.php');
//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
//获得标题和url
$string =
getwebcontent('http://www.babytree.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正则匹配

获取标题和地址
preg_match_all ("/

(.*)<\/a>/",
$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.babytree.com/learn/article/".$out[$key][1];
}
//根据url获取文章内容
foreach($article['link'] as $key=>$value){
$html = file_get_html($value);
$div = $html->find('div[id=pagenum_0]');
$article[content][] = $div[0]->innertext;
}
//标题转码---真正用的时候不用这步--因为咱本来就要用utf8的
//不转码还真不能保存成文件
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//转码
}
//存入文件
$num = count($article['title']);
for($i=0; $i<$num; $i++){
file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
}
/*本来想12点之前发的。。但小看一下都3点半了。。。就算昨天的吧
本来获取文章内容时用正则是最好的，速度也是最快的，
奈何正则是好，但正则表达式是真难！于是乎小查了一下，
网上也有很多人也在用PHP Simple Dom 虽然效率慢了点，但效果还是不错的
从包含类库文件到写入txt文件大概是7/8就秒还有带于进一步优化，特别是那获取文章内容时的正则，那个太恶心了
大家可以小研究一下*/
?>

以上就介绍了simple是什么意思 PHP simple_html_domphp+正则采集文章代码，包括了simple是什么意思方面的内容，希望对PHP教程有兴趣的朋友有所帮助。

内容总结

以上是互联网集市为您收集整理的simple是什么意思PHPsimple_html_domphp+正则采集文章代码全部内容，希望文章能够帮你解决simple是什么意思PHPsimple_html_domphp+正则采集文章代码所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/129210.html

来源：【匿名】

【上一篇】字符串php读取html并截取字符串的简单代码【下一篇】PHP 和 HTML

更多 ►

【simple是什么意思PHPsimple_html_domphp+正则采集文章代码】教程文章相关的互联网学习教程文章

jsoup html采集器

package com.forex.collect;import java.io.IOException;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Random;import javax.mail.MessagingException;import org.jsoup.Connection.Method;import org.jsoup.Connection.Response;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;public class HexunColle...

html网页采集【代码】【图】

UI_Less.pas： 1unit UI_Less;2 3interface 4 5uses 6 Windows, Classes, Messages, Forms, MsHtml, Urlmon, ActiveX;7 8const 9 WM_USER_STARTWALKING = WM_USER + 1;10 DISPID_AMBIENT_DLCONTROL = (-5512);11 READYSTATE_COMPLETE = $00000004;12 13 DLCTL_DLIMAGES = $00000010;14 DLCTL_VIDEOS = $00000020;15 DLCTL_BGSOUNDS = $00000040;16 DLCTL_NO_SCRIPTS = $00000080;17 DLCTL_NO_JAVA = $0000...

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）【代码】【图】

一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第四篇，希望大家继续支持，为我继续写作提供动力。自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我，这个软件里面各种实用的功能是如何实现的。该软件使用.NET技术开发，为回馈社区，现将该软件中用到的核心技术，开辟一个专栏，写一个系列文章，以飨广大...

使用PHPXPath采集的时候，如何保留nodeValue里的html符号

代码如下： $html = TestabcdefghijklmnopqrstuvwxyzEOF; // create document object model $dom = new DOMDocument(); // load html into document object model @$dom->loadHTML($html); // create domxpath instance $xPath = new DOMXPath($dom); // get all elements with a particular id and then loop through and print the href attribute $elements = $xPath->query('//*[@id="content"]/p/span'); $content = $element...

simple是什么意思PHPsimple_html_domphp+正则采集文章代码

代码如下://包含PHP Simple html Dom 类库文件 include_once('./simplehtmldom/simple_html_dom.php'); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch...

将HTML表格的每行每列转为数组，采集表格数据

将HTML表格的每行每列转为数组，采集表格数据 //将HTML表格的每行每列转为数组，采集表格数据 function get_td_array($table) { $table = preg_replace("']*?>si","",$table);//OSPHP.COm.CN$table = preg_replace("<tr[^>]*?>si","",$table); $table = preg_replace("<td[^>]*?>si","",$table); $table = str_replace("","{tr}",$table); //开源代码OSPhP.COm.CN $table = str_replace("","{td}",$table); //去掉 HTML 标记 ...

最近采集写的一个超简单实用的HTML解析类

$xp = new xf_HtmlDom(); $xp->loadHtml(http://dealer.bitauto.com/100040078/cars.html); $rows = $xp->find(dl/dd/a, 0)->innertext; print_r($rows); <?php$oldSetting = libxml_use_internal_errors( true ); libxml_clear_errors();/** * * -+----------------------------------- * |PHP5 Framework - 2011 * |Web Site: www.iblue.cc * |E-mail: mejinke@gmail.com * |Date: 2012-10-12 * -+----------------------------...

php实现的一个很好用HTML解析器类可用于采集数据_PHP教程

代码如下: $oldSetting = libxml_use_internal_errors( true ); libxml_clear_errors(); /** * * -+----------------------------------- * |PHP5 Framework - 2011 * |Web Site: www.iblue.cc * |E-mail: mejinke@gmail.com * |Date: 2012-10-12 * -+----------------------------------- * * @desc HTML解析器 * @author jingke */ class XF_HtmlDom { private $_xpath = null; private $_no...

PHPsimple_html_dom.php+正则采集文章代码_PHP教程

phpfile_get_contents函数轻松采集html数据_PHP教程

代码如下://全国，判断条件是$REQUEST_URI是否含有html if (!strpos($_SERVER["REQUEST_URI"],".html")) { $page="http://qq.ip138.com/weather/"; $html = file_get_contents($page,'r'); $pattern="/全国主要城市、县当天和未来五天天气趋势预报在线查询(.*?)/si"; //正则匹配之间的html preg_match($pattern,$html,$pg); echo ""; //正则替换远程地址为本地地址 $p=preg_replace('/\/weather\/(\w+)\/index.htm/', 'tq.php/$1.h...

基于curl数据采集之单页面采集函数get_html的使用_PHP教程【图】

这是一个系列没办法在一两天写完所以一篇一篇的发布大致大纲： 1.curl数据采集系列之单页面采集函数get_html 2.curl数据采集系列之多页面并行采集函数get_htmls 3.curl数据采集系列之正则处理函数get _matches 4.curl数据采集系列之代码分离 5.curl数据采集系列之并行逻辑控制函数web_spider 单页面采集在数据采集过程中是最常用的一个功能有时在服务器访问限制的情况下只能使用这种采集方式慢但是可以简单的控制所以写好一...

基于curl数据采集之单页面并行采集函数get_htmls的使用_PHP教程

用第一篇的get_html()实现简单的数据采集，由于是一个一个执行才采集数据的传输时间就会是所有页面下载的总时长，一个页面假设1秒，那么10个页面就是10秒了。所幸curl还提供了并行处理的功能。要写一个并行采集的函数，先要了解要采集什么样的页面，对采集的页面用什么请求，才能写出一个相对常用的函数。功能需求分析：返回什么？当然每一个页面的html集合成的数组传递什么参数？编写get_html()时，我们知道了可以用opti...

php将HTML表格每行每列转为数组实现采集表格数据的方法_PHP教程

php将HTML表格每行每列转为数组实现采集表格数据的方法本文实例讲述了php将HTML表格每行每列转为数组实现采集表格数据的方法。分享给大家供大家参考。具体如下：下面的php代码可以将HTML表格的每行每列转为数组，采集表格数据]*?>si","",$table);$table = preg_replace("<tr[^>]*?>si","",$table);$table = preg_replace("<td[^>]*?>si","",$table);$table = str_replace("","{tr}",$table);$table = str_replace("","{td}",$tab...

phpQueryPHP采集及html处理类

一、phpQuery简介在PHP服务端处理采集来的数据或者处理html文档的时候我们一般都是使用正则表达式来获取我们想要的部分。对于html页面，不应该使用正则的原因主要有3个1、编写条件表达式比较麻烦尤其对于新手，看到一堆”不知所云”的字符评凑在一起，有种脑袋都要炸了的感觉。如果要分离的对象没有太明显的特征，正则写起来更是麻烦。2、效率不高对于php来说，正则应该是没有办法的办法，能通过字符串函数解决的，就不要劳烦正则...

phpfile_get_contents函数轻松采集html数据_php实例

首页 / HTML / simple是什么意思PHPsimple_html_domphp+正则采集文章代码

simple是什么意思PHPsimple_html_domphp+正则采集文章代码

内容导读

内容图文

内容总结

内容备注

内容手机端

【simple是什么意思PHPsimple_html_domphp+正则采集文章代码】教程文章相关的互联网学习教程文章

jsoup html采集器

html网页采集【代码】【图】

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）【代码】【图】

使用PHPXPath采集的时候，如何保留nodeValue里的html符号

simple是什么意思PHPsimple_html_domphp+正则采集文章代码

将HTML表格的每行每列转为数组，采集表格数据

最近采集写的一个超简单实用的HTML解析类

php实现的一个很好用HTML解析器类可用于采集数据_PHP教程

PHPsimple_html_dom.php+正则采集文章代码_PHP教程

phpfile_get_contents函数轻松采集html数据_PHP教程

基于curl数据采集之单页面采集函数get_html的使用_PHP教程【图】

基于curl数据采集之单页面并行采集函数get_htmls的使用_PHP教程

php将HTML表格每行每列转为数组实现采集表格数据的方法_PHP教程

phpQueryPHP采集及html处理类

phpfile_get_contents函数轻松采集html数据_php实例

HTML - 相关标签

PHPS - 相关标签

DOM - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程