php+curl解决爬虫绝对路径及相对路径的问题。
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了php+curl解决爬虫绝对路径及相对路径的问题。,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1298字,纯文字阅读大概需要2分钟。
内容图文
打算做个模板爬虫,爬啊爬。
爬虫爬过来的代码不显示调用图片,css,js的绝对路径,引用到本地格式就错乱了。
为了解决这个问题,特地请教大师并优化代码,代码如下。
<?php $rpp = '<sdf src="bbbs/sdd" <link rel="stylesheet" type="text/css" href="/public/ui/v2/static/css/basic.css?1594346753">'; //源代码,有加斜杠的,有没加斜杠的 $furl = "http://www.baidu.com"; /暂定为目标url function relative_to_absolute($content, $feed_url) { preg_match('/(http|https|ftp):\/\//', $feed_url, $protocol); $server_url = preg_replace("/(http|https|ftp|news):\/\//", "", $feed_url); $server_url = preg_replace("/\/.*/", "", $server_url); if ($server_url == '') { return $content; } if (isset($protocol[0])) { $new_content = preg_replace('/href="/', 'href="'.$protocol[0].$server_url.'/', $content); $new_content = preg_replace('/href="\//', 'href="'.$protocol[0].$server_url.'/', $new_content); $new_content = preg_replace('/src="/', 'src="'.$protocol[0].$server_url.'/', $new_content); $new_content = preg_replace('/src="\//', 'src="'.$protocol[0].$server_url.'/', $new_content); } else { $new_content = $content; } return $new_content; } print_r(relative_to_absolute($rpp,$furl)); ?>
输出结果如下
<sdf src="http://www.baidu.com/bbbs/sdd" <link rel="stylesheet" type="text/css" href="http://www.baidu.com//public/ui/v2/static/css/basic.css?1594346753">
希望能解决你的问题。
内容总结
以上是互联网集市为您收集整理的php+curl解决爬虫绝对路径及相对路径的问题。全部内容,希望文章能够帮你解决php+curl解决爬虫绝对路径及相对路径的问题。所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。