更多【简单php采集网页部分文字问题，求指点，多谢】教程文章相关的互联网学习教程文章

【简单php采集网页部分文字问题，求指点，多谢】教程文章相关的互联网学习教程文章

dede3.1分页文字采集过滤规则详说(图文教程)【图】

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本，通过简单的变通和改动，解决一般性文字分页的采集问题一、范例部分范例分页区域代码：范例分页区域代码：范例分页区域取样代码：分页区域取样(匹配)：范例分页内容过滤规则：分页内容过滤规则：范例采集内容预览：范例采集内容预览：范例全代码(说明：此代码为在原基础上进行更改后的代码，原代码版本不同，直接导入后无效，因此在dede论坛中有许多朋友说过‘直接...

dede3.1分页文字采集过滤规则详说(图文教程)续二【图】

稍微了解dede采集规则的朋友上篇内容完全可以略过，下面看看如何以静制动、以不变就万变地解决分页采集问题。二、采集新目标目标地址：1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html之所以选取两个目标页面，是因为以上的两个页面一个有分页，而另一个没有，并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目...

中国站长站 For Dede4.0 采集规则

转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1991813 只差两分就落伍了，特献出中国站长站 For Dede4.0 的采集规则，希望大家能够支持我落伍，谢谢了！！！下面的规则为网站运营 >> 搜索优化的采集规则，其他栏目的规则只要把“来源网址”和“文章网址需包含”这两项改成你想采集栏目的网址和目录。如想采集站长在线 >> 好站推荐这个栏目，你只要做如下更改：来源网址：[url]http://www....

利用PHP制作简单的内容采集器的代码

采集器，通常又叫小偷程序，主要是用来抓取别人网页内容的。关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。　　前几天做了个小说连载的程序，因为怕更新麻烦，顺带就写了个采集器，采集八路中文网的，功能比较简单，不能自定义规则，不过大概思路都在里面了，自定义规则可以自己来扩展。　　用php来做采集器主要用...

php不用正则采集速度探究总结

注意：下面的所有函数都没有用正则。以上为取出第一个匹配的三个函数，实现相同的目的代码如下:function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高，先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中，直接查找替换 ...

php采集速度探究总结（原创）

注意：下面的所有函数都没有用正则。以上为取出第一个匹配的三个函数，实现相同的目的 function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高，先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中，直接查找替换 $x = strpos($st...

利用PHP制作简单的内容采集器的原理分析

前几天做了个小说连载的程序，因为怕更新麻烦，顺带就写了个采集器，采集八路中文网的，功能比较简单，不能自定义规则，不过大概思路都在里面了，自定义规则可以自己来扩展。　　用php来做采集器主要用到两个函数：file_get_contents()和preg_match_all()，前一个是远程读取网页内容的，不过只在php5以上的版本才能用，后一个是正则函数，用来提取需要的内容的。　　下面就一步一步来讲功能实现。　　因为是采集小说，所以首先要...

PHP 采集程序常用函数

当前的脚本网址 function get_php_url(){ if(!empty($_SERVER["REQUEST_URI"])){ $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER["PHP_SELF"]; if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName; else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum){ $nums = array("０","１","２","...

php 采集书并合成txt格式的实现代码

<?php /** * @name 采集书.php * @date Sun Mar 01 22:48:02 CST 2009 * @copyright 马永占(MyZ) * @author 马永占(MyZ) * @link http://blog.csdn.net/mayongzhan/ */ //header('Content-Type:text/html;charset=utf8'); header('Content-Type:text/html;charset=gb2312'); error_reporting(E_ALL); date_default_timezone_set('Asia/Shanghai'); set_time_limit(0); function writer($content,$url) { $fp = fopen($url, 'ab'); ...

php 信息采集程序代码

代码如下:<? //采集首页地址 $url="http://emotion.pclady.com.cn/skills/"; //获取页面代码 $rs=file_get_contents($url); //设置匹配正则 //$fp=fopen("text.txt","a"); //$fw=fwrite($fp,$rs); //fclose($fp); /*<I class=titles><A href="http://emotion.pclady.com.cn/skills/0903/376476.html" target=_blank>留住你身边的好男人</A></I>*/ $preg='/<i\s+class=\"titles\"><a\s+href=\"[^>]+\">(.*)<\/a><\/i>/i'; //进行正则...

PHP 采集心得技巧

1.获取远程文件源代码（file_get_contents或用fopen）. 2.分析代码得到自己想要的内容（这里用正规匹配，一般是得到分页）。 3.跟根得到的内容进行下载入库等操作。　　在这里第二步有可能要重复的操作好几次，比如说要先分析一下分页地址，在分析一下内页的内容才能取得我们想要的东西。　　代码：　　记的以前发部过部分的代码今天我在这里在简单的发部一下　　复制PHP内容到剪贴板　　PHP代码: @$nl=file_get_contents($rs...

火车头discuz6.1 完美采集的php接口文件

PS：对原文件的修改较大,程序中注释已经很详尽，这里就不多说了。代码如下:<?php // header('Content-Type:text/html;charset=UTF-8'); //if(function_exists("mb_convert_encoding")){ // $tmp = checkAndTranslate("使用前请将该文件直接上传至论坛根目录", 0); // header('Content-Type:text/html;charset=UTF-8'); // print($tmp); //}else{ // print("NO"); //} // exit("this.line=".__line__); /* 文件名：locoyonline_fo...

火车采集器免费版使出收费版本功能实现原理

hi 各位免费火车头采集器的采友: 火车头免费版本不支持采集结果的外挂处理，比如采用php来辅助处理结果，而火车头本身对于正则表达式的不完整支持，导致对于采集一些有混淆文字的内容效果不好，那么咱们怎么做到过滤那些混淆字串呢？其实很简单--采用服务器端过滤比如采集发送到服务器端是: $_POST = array("subject"=> "这里是标题","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>这里是内容"); 在服务器端我们稍加...

PHP 采集程序中常用的函数

代码如下://获得当前的脚本网址 function get_php_url() { if(!empty($_SERVER[”REQUEST_URI”])) { $scriptName = $_SERVER[”REQUEST_URI”]; $nowurl = $scriptName; } else { $scriptName = $_SERVER[”PHP_SELF”]; if(empty($_SERVER[”QUERY_STRING”])) $nowurl = $scriptName; else $nowurl = $scriptName.”?”.$_SERVER[”QUERY_STRING”]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum) ...

PHP simple_html_dom.php+正则采集文章代码

代码如下:<?php //包含PHP Simple html Dom 类库文件 include_once(./simplehtmldom/simple_html_dom.php); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close...

上一页
1
...
37
38
39
40
41
...
44
下一页
共 44 页
共 651 条