【简单php采集网页部分文字问题,求指点,多谢】教程文章相关的互联网学习教程文章

dede3.1分页文字采集过滤规则详说(图文教程)【图】

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题一、范例部分范例分页区域代码:范例分页区域代码:范例分页区域取样代码: 分页区域取样(匹配): 范例分页内容过滤规则:分页内容过滤规则: 范例采集内容预览:范例采集内容预览:范例全代码(说明:此代码为在原基础上进行更改后的代码,原代码版本不同,直接导入后无效,因此在dede论坛中有许多朋友说过‘直接...

dede3.1分页文字采集过滤规则详说(图文教程)续二【图】

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。二、采集新目标目标地址:1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目...

中国站长站 For Dede4.0 采集规则

转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1991813 只差两分就落伍了,特献出中国站长站 For Dede4.0 的采集规则,希望大家能够支持我落伍,谢谢了!!! 下面的规则为网站运营 >> 搜索优化 的采集规则,其他栏目的规则只要把“来源网址”和“文章网址需包含”这两项改成你想采集栏目的网址和目录。 如想采集站长在线 >> 好站推荐 这个栏目,你只要做如下更改: 来源网址:[url]http://www....

利用PHP制作简单的内容采集器的代码

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的。关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的。   前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展。   用php来做采集器主要用...

php不用正则采集速度探究总结

注意:下面的所有函数都没有用正则。 以上为取出第一个匹配的三个函数,实现相同的目的 代码如下:function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高,先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中,直接查找替换 ...

php采集速度探究总结(原创)

注意:下面的所有函数都没有用正则。 以上为取出第一个匹配的三个函数,实现相同的目的 function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高,先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中,直接查找替换 $x = strpos($st...

利用PHP制作简单的内容采集器的原理分析

前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展。   用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的。   下面就一步一步来讲功能实现。   因为是采集小说,所以首先要...

PHP 采集程序 常用函数

当前的脚本网址 function get_php_url(){ if(!empty($_SERVER["REQUEST_URI"])){ $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER["PHP_SELF"]; if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName; else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum){ $nums = array("0","1","2","...

php 采集书并合成txt格式的实现代码

<?php /** * @name 采集书.php * @date Sun Mar 01 22:48:02 CST 2009 * @copyright 马永占(MyZ) * @author 马永占(MyZ) * @link http://blog.csdn.net/mayongzhan/ */ //header('Content-Type:text/html;charset=utf8'); header('Content-Type:text/html;charset=gb2312'); error_reporting(E_ALL); date_default_timezone_set('Asia/Shanghai'); set_time_limit(0); function writer($content,$url) { $fp = fopen($url, 'ab'); ...

php 信息采集程序代码

代码如下:<? //采集首页地址 $url="http://emotion.pclady.com.cn/skills/"; //获取页面代码 $rs=file_get_contents($url); //设置匹配正则 //$fp=fopen("text.txt","a"); //$fw=fwrite($fp,$rs); //fclose($fp); /*<I class=titles><A href="http://emotion.pclady.com.cn/skills/0903/376476.html" target=_blank>留住你身边的好男人</A></I>*/ $preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; //进行正则...

PHP 采集心得技巧

1.获取远程文件源代码(file_get_contents或用fopen). 2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。 3.跟根得到的内容进行下载入库等操作。   在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。   代码:   记的以前发部过部分的代码今天我在这里在简单的发部一下   复制PHP内容到剪贴板   PHP代码: @$nl=file_get_contents($rs...

火车头discuz6.1 完美采集的php接口文件

PS:对原文件的修改较大,程序中注释已经很详尽,这里就不多说了。 代码如下:<?php // header('Content-Type:text/html;charset=UTF-8'); //if(function_exists("mb_convert_encoding")){ // $tmp = checkAndTranslate("使用前请将该文件直接上传至论坛根目录", 0); // header('Content-Type:text/html;charset=UTF-8'); // print($tmp); //}else{ // print("NO"); //} // exit("this.line=".__line__); /* 文件名:locoyonline_fo...

火车采集器 免费版使出收费版本功能实现原理

hi 各位免费火车头采集器的采友: 火车头免费版本不支持采集结果的外挂处理,比如采用php来辅助处理结果,而火车头本身对于正则表达式的不完整支持, 导致对于采集一些有混淆文字的内容效果不好,那么咱们怎么做到过滤那些混淆字串呢? 其实很简单--采用服务器端过滤 比如采集发送到服务器端是: $_POST = array("subject"=> "这里是标题","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>这里是内容"); 在服务器端我们稍加...

PHP 采集程序中常用的函数

代码如下://获得当前的脚本网址 function get_php_url() { if(!empty($_SERVER[”REQUEST_URI”])) { $scriptName = $_SERVER[”REQUEST_URI”]; $nowurl = $scriptName; } else { $scriptName = $_SERVER[”PHP_SELF”]; if(empty($_SERVER[”QUERY_STRING”])) $nowurl = $scriptName; else $nowurl = $scriptName.”?”.$_SERVER[”QUERY_STRING”]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum) ...

PHP simple_html_dom.php+正则 采集文章代码

代码如下:<?php //包含PHP Simple html Dom 类库文件 include_once(./simplehtmldom/simple_html_dom.php); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close...

采集 - 相关标签