首页 / HTML / php-使用正则表达式从网站的HTML源中提取内容

php-使用正则表达式从网站的HTML源中提取内容

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php-使用正则表达式从网站的HTML源中提取内容，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1410字，纯文字阅读大概需要3分钟。

内容图文

这个问题已经在这里有了答案： > How do you parse and process HTML/XML in PHP? 30个
我正在尝试修复以下代码.

编码：

$pageData = file_get_contents('111234-2.html');
if(preg_match_all('/<a\s+onclick=["\']([^"\']+)["\']/i', $pageData, $links, PREG_PATTERN_ORDER))
     print_r(array_unique($links[1]));
return false;

我希望从中获取一些示例HTML：

    <a onclick="doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&amp;playChapter=False',960,540,111234);return false;" href="javascript:void(0);">
<span class="vt">Welcome

        </span>
        <span class="dur">1m 10s</span>
        <span class="" id="bkmimgview-116031">&nbsp;</span>
        <br class="clear">
    </a>

我得到的输出：

Array ( [0] => doShowCHys=1;ShowWindowN(0, )

我希望的输出：

Array ( [0] => doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&amp;playChapter=False',960,540,111234);return false;)

我该如何实现？

解决方法:

您可以使用反向引用来改进此功能,但是如果嵌套引号的级别更高,您将注定要失败.

'/<a\s+onclick=(["\'])((?:(?!\1).)+)\1/i'

反向引用使您可以引用已捕获的组.因此,如果您在第一个捕获中捕获了一个“,”则想找到一个非“字符串”,同样,如果您在第一个捕获中捕获了一个“,”则想找到一个非“ ,并且两种方式都以相同的引号“或”结尾.

编辑：

@vladr提供了更好的选择：

'/<a\s+onclick=(["\'])(.*?)\1/i'

相同的想法,但非贪婪的量词使得不必测试每个字符的非引用性.更新的Rubular链接：http://rubular.com/r/VXR1nQ4zf5.

内容总结

以上是互联网集市为您收集整理的php-使用正则表达式从网站的HTML源中提取内容全部内容，希望文章能够帮你解决php-使用正则表达式从网站的HTML源中提取内容所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/675324.html

来源：【匿名】

【上一篇】使用PHP解析html并遍历表行和列？【下一篇】PHP 和 HTML

更多 ►

【php-使用正则表达式从网站的HTML源中提取内容】教程文章相关的互联网学习教程文章

IOS 用正则表达式解析HTML等文件,得到所有文本

获得网页内容NSURL *url=[NSURL URLWithString:@"http://121.199.34.52/wordpress/?json=core.get_post_content&post_id=8764&post_type=post"]; NSDictionary * dic=[NSJSONSerialization JSONObjectWithData:[NSData dataWithContentsOfURL:url] options:0 error:Nil]; NSString *content=[dic objectForKey:@"content"];正则表达式 NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithP...

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

上一篇博客Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码中我们已经学习到如何从网站上获取html的源码, 那么今天我们就来学习如何使用正则表达式来解析HTML.同样以Python的Api文档为例.正则表达式:又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(从百度上复制过来的)看这篇文章没有正...

Java/Js下使用正则表达式匹配嵌套Html标签

通用 HTML 标签区配正则最近看网站日志，发现有人在博客上转了我不知道几年前写的一个匹配 HTML 标签的正则，刚好最近也在做一些相关的事情，顿时来了兴趣。就拿回来改改，成了下面这样，可能会有一些 case 遗漏，欢迎修改，已知在内嵌 <script> 复杂内容的处理能力较弱，不过对纯 HTML 来说已经够用，拿来做一些分析工具还是不错滴。复制代码代码如下:<script type="text/javascript"> var str = "<br /><br/><br><br ><中文><...

HTML中用正则表达式实现表格验证

这篇文章主要介绍了HTML用正则表达式检验表格的实例代码，代码简单易懂，非常不错，具有参考借鉴价值，需要的朋友参考下下面给大家分享HTML用正则表达式检验表格的实例代码，具体代码内容如下所示：<span style="font-size:24px;color:#cc6600;"> 正则表达式在JavaScript脚本中是很好用的检验语法规则的方法。但是与Java中的正则表达式有所不同。它需要在regex规则上以“^”开始，以"$"结束。</span><span style="font-size:24px;c...

正则表达式匹配html过滤非法字符_PHP教程

正则表达式匹配html 过滤非法字符匹配一个html标签，匹配table如下： <table.*?>[ss]* 或 <table.*?>[ss]*?</table.*?></table.*?> 以上两个表达式，一个加了"?"和一个却不加"?"，那么这有什么区别呢？我们知道"?"在正则表达式里是一个通配符：匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。在这里，通过测试，我们得出这样的结论：在不加"?"的情况下，在匹配下面一段内容的时候：这是第一个table我不是table里的内容...

php正则表达式如何去掉html【代码】【图】

php正则表达式去掉html的方法：首先使用“htmlspecialchars_decode” 将特殊的HTML实体转换回普通字符；然后通过正则表达式“preg_replace(/<\>]+>/,,$_str);”去掉即可。推荐：《PHP视频教程》php 正则去除 html 标签代码如下：$_str = htmlspecialchars_decode($_str); $_str = preg_replace(/<\/?[^>]+>/,,$_str);htmlspecialchars_decode — 将特殊的 HTML 实体转换回普通字符preg_replace 函数执行一个正则表达式...

利用PHP中的正则表达式方法删除HTML的宽高样式方法

这篇文章主要介绍了PHP正则删除HTML代码中宽高样式的方法,涉及php针对HTML代码的正则匹配、替换等操作技巧,需要的朋友可以参考下本文实例讲述了PHP正则删除HTML代码中宽高样式的方法。分享给大家供大家参考，具体如下：因工作需要，需要采集html，并把html内容保存到数据库中。为了避免影响使用，宽高样式需要删除。例如图片和p中的width, height等。不过采集到的html中，样式的写法各有不同，例如大小写，中间有空格等。因此使用p...

详细介绍PHP过滤常见html标签的正则表达式

PHP 用htmlentities() 函数把HTML标签转换成Html实体定义和用法htmlentities() 函数把字符转换为 HTML 实体。语法htmlentities(string,quotestyle,character-set)PHP：过滤html标签的函数（这个最强大）PHP过滤html标签竟然有内部的函数可用，相对来说简直是太强大了。php过滤html的函数：strip_tags(string) 这样就可以过滤掉所有的html标签了。如果想过滤掉除了之外的所有html标签，则可以这样写：strip_tags(string,"");过滤除了...

php正则表达式的html标签匹配input,select,textarea的问题

我想用正则表达式匹配html代码中的input，select和textarea这三个标签，其他的标签都不需要。我的写法如下： $text = ""; $pattern="//i"; preg_match($pattern1,$text,$matches); var_dump($matches); 但是我发现我写的却可以匹配所有的标签，我知道是[input|textarea|select]写错了，但是我不知道该如何修改或者是有更简单的方法来写，希望有大神可以解答一下。回复内容：我想用正则表达式匹配html代码中的input，select和textar...

PHP正则表达式过滤html标签属性DEMO

过滤html标签在php中可以有内置的函数了，但它过滤的太干净了，我们就整理了一下些利用正则来过滤指定html标签的例子，具体如下所示。采集的时候有时候需要过滤掉多余的标签属性，比如 img标签过滤掉除了src属性之外的所有属性例如删除titile alt等属性以及一些脚的onclick属性等。例如过滤除了src之外的所有属性: 代码如下:$str= preg_replace(/\s(?!src)[a-zA-Z]+=[\\"]{1}[^\\"]+[\\"]{1}/iu, $str); 上面的实例代码是过滤掉除了...

PHP正则表达式提取html超链接中的href地址_PHP教程【图】

有时我们需要过滤或提取html字符串的外链接了，下面我介绍一个利用PHP正则表达式提取html超链接中的href地址程序，各位机参考。用php的正则表达式相关函数，实现提取html超链接中的地址。代码如下$preg='//is'; $str ='URLNAME文本段1URLNAME文本段2URLNAME...文本段n'; preg_match_all($preg,$str,$match);//在$str中搜索匹配所有符合$preg加入$match中 for($i=0;$i输出超链接地址 {echo $match[1][$i].""; } ?>最终输出：链接1链...

PHP正则表达式过滤html标签属性(DEMO)，正则表达式demo_PHP教程

PHP正则表达式过滤html标签属性(DEMO)，正则表达式demo过滤html标签在php中可以有内置的函数了，但它过滤的太干净了，我们就整理了一下些利用正则来过滤指定html标签的例子，具体如下所示。采集的时候有时候需要过滤掉多余的标签属性，比如 img标签过滤掉除了src属性之外的所有属性例如删除titile alt等属性以及一些脚的onclick属性等。例如过滤除了src之外的所有属性:代码如下: $str= preg_replace(/\s(?!src)[a-zA-Z]+=[\\"]{...

php中删除html标签里的属性(可用正则表达式)

比如代码如下： $str = test;$str=stripslashes($str);echo htmlspecialchars($str).""; 希望输入的是:test 总之：不管$str里的标签内含有任何属性都去除掉，只保留标签本身。回复讨论(解决方案) $str = ' pad第一的内容133 内容1 asdasdkjasd内容任意的链接后茜 '; $str = preg_replace('~~i,<$1>,$str); highlight_string($str); ?> $str = test;//$str=stripslashes($s...

php过滤html正则表达式怎么写

php过滤html 正则表达式怎么写替换基本的html标签的正则回复讨论(解决方案) 用strip_tags函数吧 strip_tags ? 从字符串中去除 HTML 和 PHP 标记

php正则表达式提取html标签的问题

php正则表达式提取html标签的问题<tr> <td Height="30"> <a class="index_libiao" href="http://www.zh818.com/html/2014/033/7155319.aspx" title="3月14日上海钢材市场价格汇总" target="_blank"> <font color="#0000FF"> 3月14日上海钢材市场价格汇总</font> </a> </td> <td align="Right"> <span class="biaotiriqi"> 3月14日</span> </td> </tr> <tr> <td Height="30"> <a class="...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / php-使用正则表达式从网站的HTML源中提取内容

php-使用正则表达式从网站的HTML源中提取内容

内容导读

内容图文

内容总结

内容备注

内容手机端

【php-使用正则表达式从网站的HTML源中提取内容】教程文章相关的互联网学习教程文章

IOS 用正则表达式解析HTML等文件,得到所有文本

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

Java/Js下使用正则表达式匹配嵌套Html标签

HTML中用正则表达式实现表格验证

正则表达式匹配html过滤非法字符_PHP教程

php正则表达式如何去掉html【代码】【图】

利用PHP中的正则表达式方法删除HTML的宽高样式方法

详细介绍PHP过滤常见html标签的正则表达式

php正则表达式的html标签匹配input,select,textarea的问题

PHP正则表达式过滤html标签属性DEMO

PHP正则表达式提取html超链接中的href地址_PHP教程【图】

PHP正则表达式过滤html标签属性(DEMO)，正则表达式demo_PHP教程

php中删除html标签里的属性(可用正则表达式)

php过滤html正则表达式怎么写

php正则表达式提取html标签的问题

正则表达式 - 相关标签

HTML - 相关标签

PHP - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程