php-使用正则表达式从网站的HTML源中提取内容
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了php-使用正则表达式从网站的HTML源中提取内容,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1410字,纯文字阅读大概需要3分钟。
内容图文
![php-使用正则表达式从网站的HTML源中提取内容](/upload/InfoBanner/zyjiaocheng/676/89f6a4a980b44d77bb6c751e56ff93b2.jpg)
这个问题已经在这里有了答案: > How do you parse and process HTML/XML in PHP? 30个
我正在尝试修复以下代码.
编码:
$pageData = file_get_contents('111234-2.html');
if(preg_match_all('/<a\s+onclick=["\']([^"\']+)["\']/i', $pageData, $links, PREG_PATTERN_ORDER))
print_r(array_unique($links[1]));
return false;
我希望从中获取一些示例HTML:
<a onclick="doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&playChapter=False',960,540,111234);return false;" href="javascript:void(0);">
<span class="vt">Welcome
</span>
<span class="dur">1m 10s</span>
<span class="" id="bkmimgview-116031"> </span>
<br class="clear">
</a>
我得到的输出:
Array ( [0] => doShowCHys=1;ShowWindowN(0, )
我希望的输出:
Array ( [0] => doShowCHys=1;ShowWindowN(0,'http://www.example.com/home/Player.aspx?lpk4=116031&playChapter=False',960,540,111234);return false;)
我该如何实现?
解决方法:
您可以使用反向引用来改进此功能,但是如果嵌套引号的级别更高,您将注定要失败.
'/<a\s+onclick=(["\'])((?:(?!\1).)+)\1/i'
反向引用使您可以引用已捕获的组.因此,如果您在第一个捕获中捕获了一个“,”则想找到一个非“字符串”,同样,如果您在第一个捕获中捕获了一个“,”则想找到一个非“ ,并且两种方式都以相同的引号“或”结尾.
编辑:
@vladr提供了更好的选择:
'/<a\s+onclick=(["\'])(.*?)\1/i'
相同的想法,但非贪婪的量词使得不必测试每个字符的非引用性.更新的Rubular链接:http://rubular.com/r/VXR1nQ4zf5.
内容总结
以上是互联网集市为您收集整理的php-使用正则表达式从网站的HTML源中提取内容全部内容,希望文章能够帮你解决php-使用正则表达式从网站的HTML源中提取内容所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。