【php不用正则采集速度探究总结_php技巧】教程文章相关的互联网学习教程文章

php不用正则采集速度探究总结_php技巧

注意:下面的所有函数都没有用正则。 以上为取出第一个匹配的三个函数,实现相同的目的 代码如下:function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高,先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中,直接查找替换 ...

php文章采集正则代码_php技巧

代码如下://采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch); return $contents; } //获得标题和url $string = getwebcontent(http://www.***.com/learn/...

PHPsimple_html_dom.php+正则采集文章代码_php技巧

代码如下://包含PHP Simple html Dom 类库文件 include_once('./simplehtmldom/simple_html_dom.php'); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch...

解析php利用正则表达式解决采集内容排版的问题_php技巧

做采集经常遇到的问题是内容排版问题,用了一些时间写了个用正则替换html标签和样式的函数,共享下。 代码如下:/** * 格式化内容 * @param string $content 内容最好统一用utf-8编码 * @return string * !本函数需要开启tidy扩展 */function removeFormat($content) { $replaces = array ( "//i" => '', "//i" => '', "//i" => , "/<\/strong>/i" => , "/<span.*?>/i" => , "/<\/span>/i" => , "//i" => "", "/<\/...

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_php技巧

1、使用curl实现站外采集 具体请参考我上一篇笔记:http://www.gxlcms.com/article/46432.htm 2、编码转换首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码; 具体使用方法:代码如下://源字符是$str //以下已知原编码为GBK,转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码,通过auto自动检测后,转换编码为utf-8 mb_convert_encoding($str, "UTF-8", "auto"); 3、为...

dedecms采集中可以过滤多行代码的正则表达式

过去用dede采集,总是过滤不掉一行以上的代码,只能一行行的过滤,在网上,发现有很多和我一样的菜鸟。随着不断的使用dede采集,对正则有了更进一步的了解,现在偶用一句正则表达式,同样可以匹配多行代码了。 如:在如下代码中,过滤掉有二行代码的超级链接。 <td align="center"> <a href="http://www.XXX.com/111111.htm">XXX XXX</a> </td> 用下面的过滤,即可实现多行匹配 {dede:trim} <a href="http://www.XXX.com/111111.ht...

php不用正则采集速度探究总结

注意:下面的所有函数都没有用正则。 以上为取出第一个匹配的三个函数,实现相同的目的 代码如下:function str_cut($str ,$start, $end) {//取出第一个匹配,效率最高,先分割再替换 $content = strstr( $str, $start ); $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) ); return $content; } function str_cut1($str ,$start, $end) {//取出第一个匹配,效率中,直接查找替换 ...

PHP simple_html_dom.php+正则 采集文章代码

代码如下:<?php //包含PHP Simple html Dom 类库文件 include_once(./simplehtmldom/simple_html_dom.php); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close...

php 文章采集正则代码

代码如下://采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch); return $contents; } //获得标题和url $string = getwebcontent(http://www.***.com/learn/...

解析php利用正则表达式解决采集内容排版的问题

做采集经常遇到的问题是内容排版问题,用了一些时间写了个用正则替换html标签和样式的函数,共享下。 代码如下:/** * 格式化内容 * @param string $content 内容最好统一用utf-8编码 * @return string * !本函数需要开启tidy扩展 */function removeFormat($content) { $replaces = array ( "/<font.*?>/i" => '', "/<\/font>/i" => '', "/<strong>/i" => '', "/<\/strong>/i" => '', "/<span.*?>/i" => '', "/<\/span>...

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

1、使用curl实现站外采集 具体请参考我上一篇笔记://www.gxlcms.com/article/46432.htm 2、编码转换首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码; 具体使用方法:代码如下://源字符是$str //以下已知原编码为GBK,转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码,通过auto自动检测后,转换编码为utf-8 mb_convert_encoding($str, "UTF-8", "auto"); 3、为更好地...

asp只采集网站可见文本的正则

我写的是这样: Function ClearHTMLCode(originCode) Dim reg set reg = new RegExp reg.IgnoreCase = True reg.Global = True reg.Pattern = "(<s+cript(.+?)<\/s+cript>)" originCode= reg.Replace(originCode, "") reg.Pattern = "(<s+tyle(.+?)<\/s+tyle>)" originCode= reg.Replace(originCode, "") reg.Pattern = "<[^>]*>" originCode= reg.Replace(originCode, "") ClearHTMLCode = originCode End Function 不过有一些过滤...

编写采集规则的好帮手—RegexBuddy 下载,正则不再难【图】

好多人都说dede的采集不好使,其实从我的个人使用经验来看,还是很好用的,可能是由于我是个程序员把,不过趁手的工具也是很重要的。下面给大家介绍RegexBuddy这个小软件,一个内有乾坤的软件。先上截图这个软件可以创建、测试正则表达式,还可以在文件中搜索特定字符。有了它,你就可以很方便的编写采集规则了。下载地址在这里:http://www.cnfdc.com.cn/uploadfiles/RegexBuddy.zip本地下载

asp采集HTML内容常用代码,详讲正则采集

先说一下采集原理: 采集程序的主要步骤如下: 一、获取被采集的页面的内容 二、从获取代码中提取所有用的数据 一、获取被采集的页面的内容 我目前所掌握的ASP常用获取被采集的页面的内容方法: 1、用serverXMLHTTP组件获取数据 代码如下:Function GetBody(weburl) 创建对象 Dim ObjXMLHTTP Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP") 请求文件,以异步形式 ObjXMLHTTP.Open "GET",weburl,False ObjXMLHTTP.send...