首页 / 正则 / php正则匹配获取指定url网页页面超级链接地址_PHP教程

php正则匹配获取指定url网页页面超级链接地址_PHP教程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php正则匹配获取指定url网页页面超级链接地址_PHP教程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2113字，纯文字阅读大概需要4分钟。

内容图文

在数据采集与页面分析中，常需要抓取给定url页面的内容，或者第二、第三层次深度页面内容。

这里是一个测试例子的实现，仅供参考。

代码如下：

/*
匹配给定页面链接
return:array match[link,content,all]
*/
function match_links($host, $document) {
$pattern = '/(.*?)/i';
preg_match_all($pattern, $document, $m);
return $m;

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1)(.*?)1|([^s>]+))[^>]*>?(.*?)'isx",$document,$links);
while(list($key,$val) = each($links[2])) {
if(!empty($val))
if(preg_match("/http/",$val)){
$match['link'][] = $val;
}
else {
$match['link'][] = $host . $val;
}
}
while(list($key,$val) = each($links[3])) {
if(!empty($val))
if(preg_match("/http/",$val)){
$match['link'][] = $val;
}
else {
$match['link'][] = $host . $val;
}
}
while(list($key,$val) = each($links[4])) {
if(!empty($val))
$match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
if(!empty($val))
$match['all'][] = $val;
}
return $match['link'];
}

/*
从给定url中获取页面文本内容
*/
function get_content_from_url($url) {
$str = @file_get_contents($url);
if(mb_check_encoding($str, "GBK"))
$str = iconv("GBK","UTF-8", $str);
$str = strip_tags($str); // 过滤html标签
/*
$str = preg_replace( "@@is", "", $str );
$str = preg_replace( "@<iframe(.*?)@is", "", $str );
$str = preg_replace( "@<style(.*?)@is", "", $str );
$str = preg_replace( "@<(.*?)>@is", "", $str );
*/
//过滤非汉字字符
preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);
$str = join('，', $matches[0]);
if(!$str)
return NULL;

return $str;
}

function get_content($url,$depth) {
if(!$url || $depth < 1)
return false;

while($depth > 1){
$str = @file_get_contents($url);
if(!$str)
return false;

$parseurl = parse_url($url);
if($parseurl['host'])
$host = $parseurl[scheme] . "://" . $parseurl['host'];

$arrlink = match_links($host,$str);
$arr_url = array_unique($arrlink);

$depth--;
foreach($arr_url as $url){
$content .= get_content($url, $depth); //递归调用
}
}

$content .= get_content_from_url($url);

return $content;
}

http://www.bkjia.com/PHPjc/372096.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/372096.htmlTechArticle在数据采集与页面分析中，常需要抓取给定url页面的内容，或者第二、第三层次深度页面内容。这里是一个测试例子的实现，仅供参考。...

内容总结

以上是互联网集市为您收集整理的php正则匹配获取指定url网页页面超级链接地址_PHP教程全部内容，希望文章能够帮你解决php正则匹配获取指定url网页页面超级链接地址_PHP教程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/171650.html

来源：【匿名】

【上一篇】PHP防止JS注入正则_PHP教程【下一篇】正则表达式语法

更多 ►

【php正则匹配获取指定url网页页面超级链接地址_PHP教程】教程文章相关的互联网学习教程文章

nginx获取经过层层代理后的客户端真实IP（使用正则匹配）【图】

今天帮兄弟项目搞了一个获取客户端真实IP的问题，网上这种问题很多，但是对于我们的场景都不太合用，现把我的解决方案share给大家，如有问题，请及时指出。场景：在请求到达后端服务之前，会经过层层代理的转发。一般的解决方案： proxy_set_header Host $host; proxy_set_header X-real-ip $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forw...

使用python实现正则匹配检索远端FTP目录下的文件【代码】

遇到一个问题，需要正则匹配远端FTP目录下的文件，如果使用ftp客户端可以通过命令行很容易的做到这一点，但是暂时没有一个工具支持这样的需求，于是通过python对FTP的支持和对正则表达式的支持，写了这么一个简单的工具，用于使用正则表达式来匹配远端目录的文件。代码如下 # coding=utf-8 ######################################################################### # File Name: reg_url.py # Author: WangWeilong # Company: ...

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

1、使用curl实现站外采集具体请参考我上一篇笔记：http://www.jb51.net/article/46432.htm2、编码转换首先通过查看源代码找到采集的网站使用的编码，通过mb_convert_encoding函数进行转码；具体使用方法：复制代码代码如下://源字符是$str //以下已知原编码为GBK，转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码，通过auto自动检测后，转换编码为utf-8 mb_convert_encoding($str, "UTF-8", "auto");3、...

重要的正则匹配

1、匹配固定标签下中的值 ([\\S\\s]*?)　　"<p class=\"wt_fc_c0_i_day \">([\\S\\s]*?)</p>" 2、匹配元素为data-temp的值　 "data-temp=\"([\\S\\s]*?)\""3、匹配 .*? src=任意值中alt的值 .*?　　<img class=\"slider_whicon png24\" src=\".*?\" height=\"128\" width=\"128\" alt=\"([\\S\\s]*?)\">原文：http://www.cnblogs.com/weijiafd/p/4627681.html

ThinkPHP 3.1，3.2中对IN和BETWEEN正则匹配不当导致的一个SQLi【代码】

1// where子单元分析 2protectedfunction parseWhereItem($key,$val) {3$whereStr = ‘‘;4if(is_array($val)) {5if(is_string($val[0])) {6if(preg_match(‘/^(EQ|NEQ|GT|EGT|LT|ELT)$/i‘,$val[0])) { // 比较运算 7$whereStr .= $key.‘ ‘.$this->comparison[strtolower($val[0])].‘ ‘.$this->parseValue($val[1]);8 }elseif(preg_match(‘/^(NOTLIKE|LIKE)$/i‘,$val[0])){// 模糊查找 9if(is_array($val[1...

python3 正则匹配[^abc]和(?!abc)的区别（把多个字符作为一个整体匹配排除）【代码】

目的：把数字后面不为abc的字符串找出来如1ab符合要求，2abc不符合要求 1 str = ‘1ab‘ 2 out = re.match(r‘\d+(?!abc)‘,str)3 4 str1 = ‘1abc‘ 5 out1 = re.match(r‘\d+(?!abc)‘,str1)6 7print(‘out:‘,out)8print(‘out1:‘,out1)9# 10#out: <_sre.SRE_Match object; span=(0, 1), match=‘1‘>11#out1: None12#如果把(?!abc)改为[^abc]，效果如下： 1 str = ‘1ab‘ 2 out3 = re.match(r‘\d+[^abc]‘,str)3 4 str1 = ‘...

正则匹配【代码】

匹配密码中大写字母，小写字母，数字，符号中的三种/^(?![a-zA-Z]+$)(?![A-Z0-9]+$)(?![A-Z\\W_!@#$%^&*`~()-+=]+$)(?![a-z0-9]+$)(?![a-z\\W_!@#$%^&*`~()-+=]+$)(?![0-9\\W_!@#$%^&*`~()-+=]+$)[a-zA-Z0-9\\W_!@#$%^&*`~()-+=]{8,30}$/原文：https://www.cnblogs.com/jingguorui/p/11803477.html

Python使用正则匹配实现抓图代码分享【代码】

内涵：正则匹配，正则替换，页面抓取，图片保存。实用的第一次 Python 代码参考 #!/usr/bin/env python import urllib import rex=0 def getHtml(url):page = urllib.urlopen(url)html = page.read()return htmldef getImg(html):global xreg = ‘alt=".+?" src="(.+?\.jpg)"‘imgre = re.compile(reg)imglist = re.findall(imgre,html)for imgurl in imglist:urllib.urlretrieve(re.sub(r‘,\d+,\d+‘,‘,800,450‘,imgurl),"im...

php正则匹配中文【代码】

<?php$str = ‘你是我的+****xiaopingguo _ 23947237 _+冠军终归这里‘;preg_match_all(‘/[\x{4e00}-\x{9fa5}A-Za-z0-9]+/u‘, $str, $re);print_r($re); //输出结果是: //Array ( [0] => Array ( [0] => 你是我的 [1] => xiaoweiba [2] => 23947237 [3] => 冠军终归这里 ) ) 逐个解释：1、\x{4e00}-\x{9fa5}是utf编码下汉字的编码范围。2、A-Za-z0-9，这个代表大写字母、小写字母和数字，没多说的。3、u是修正符，表示匹配的字...

使用正则匹配并填充文本模板【代码】【图】

需求说明：实现文本内容的灵活配置。设计说明：根据固定的文本模板，在模板中替换必要的值文本内容。例如：【待办提醒】${DeparmentName}-${EmployeeName}休假申请，待您审批处理！[${AbsenceDate}]代码实现：staticvoid Main(string[] args) {string originText = "【待办提醒】${DeparmentName}-${EmployeeName}休假申请，待您审批处理！[${AbsenceDate}]";Console.Write(Match(originText));Console.ReadKey(); }staticstring M...

pycharm批量查找替换,正则匹配【图】

ctrl + r:查找替换ctrl+f:查找ctrl+shift+r:全局查找替换ctrl+alt+f:全局查找shift+tab将代码左对齐 replace all完成原文：https://www.cnblogs.com/wisir/p/10863696.html

php preg_库正则匹配【代码】

<?php//preg_库提供的正则preg_match();//进行正则表达式匹配/*preg_match (pattern , subject, matches)参数描述pattern 正则表达式subject 需要匹配检索的对象matches 可选，存储匹配结果的数组*************************************** *提示* preg_match() 第一次匹配成功后就会停止匹配，如果要实现全部结果的匹配，即搜索到subject结尾处，则需使用 preg_match_all() 函数。*/preg_match_all();/...

phpstorm 正则匹配删除注释行（替换注释行为空行）

使用phpstorm 来编写php 和javascript 代码，感觉还是不错的，用得也很舒服。遇到了一个需求，有时候在阅读框架源代码的时候，想过滤（删除）掉源代码中的注释行，如果手动逐行删除显示不够科学。当然想到了强大的正则匹配（regExp regular expression）, 通过写一个正则表达式，来查找出所有的注释行，并将其替换成空，即实现了需求。 1. ctrl + F , 输入正则表达式：(\/\/.*$)|(\/\*(.|\s)*?\*\/)2. ctrl + R, 不输入： ...

正则匹配【代码】

1.python中使用正则表达式的一般步骤>>> import re >>> phoneNumber=re.compile(r‘\d\d\d-\d\d\d-\d\d\d\d‘) >>> mo=phoneNumber.search(‘My number is 415-555-4242‘) >>> mo.group()输出结果：415-555-42422.利用括号分组>>> import re >>> phoneNumRegex=re.compile(r‘(\d\d\d)-(\d\d\d-\d\d\d\d)‘) >>> mo=phoneNumRegex.search(‘My number is 415-555-5252.‘) >>> mo.group(1) ‘415‘ >>> mo.group(2) ‘555-5252‘ ...

常用正则匹配

邮箱：([a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+) --只允许英文字母、数字、下划线、英文句号、以及中划线组成　　 ([A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+) --名称允许汉字、字母、数字，域名只允许英文域名身份证：/^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$/ --15位 /^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[...

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...python 正则表达式与JSON-JSON java-检查字符串是否仅包含字母空格和引...java网页爬虫正则表达式

首页 / 正则 / php正则匹配获取指定url网页页面超级链接地址_PHP教程

php正则匹配获取指定url网页页面超级链接地址_PHP教程

内容导读

内容图文

内容总结

内容备注

内容手机端

【php正则匹配获取指定url网页页面超级链接地址_PHP教程】教程文章相关的互联网学习教程文章

nginx获取经过层层代理后的客户端真实IP（使用正则匹配）【图】

使用python实现正则匹配检索远端FTP目录下的文件【代码】

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

重要的正则匹配

ThinkPHP 3.1，3.2中对IN和BETWEEN正则匹配不当导致的一个SQLi【代码】

python3 正则匹配[^abc]和(?!abc)的区别（把多个字符作为一个整体匹配排除）【代码】

正则匹配【代码】

Python使用正则匹配实现抓图代码分享【代码】

php正则匹配中文【代码】

使用正则匹配并填充文本模板【代码】【图】

pycharm批量查找替换,正则匹配【图】

php preg_库正则匹配【代码】

phpstorm 正则匹配删除注释行（替换注释行为空行）

正则匹配【代码】

常用正则匹配

PHP - 相关标签

URL - 相关标签

正则 - 相关标签

正则 - 最新教程

正则 - 最热教程