首页 / 爬虫 / php实现简单爬虫的开发，php实现爬虫_PHP教程

php实现简单爬虫的开发，php实现爬虫_PHP教程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php实现简单爬虫的开发，php实现爬虫_PHP教程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3436字，纯文字阅读大概需要5分钟。

内容图文

php实现简单爬虫的开发，php实现爬虫

有时候因为工作、自身的需求，我们都会去浏览不同网站去获取我们需要的数据，于是爬虫应运而生，下面是我在开发一个简单爬虫的经过与遇到的问题。

开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。

按照个人习惯，我首先要写一个界面，理清下思路。

1、去不同网站。那么我们需要一个url输入框。
2、找特定关键字的文章。那么我们需要一个文章标题输入框。
3、获取文章链接。那么我们需要一个搜索结果的显示容器。


 
 
  文章URL抓取
 
  
   
    文章标题
    
   
   
    网站URL
    
   
 
   
  
 
 
 
  文章URL

直接上代码，然后加上自己的一些样式调整，界面就完成啦：

php实现简单爬虫的开发，php实现爬虫_PHP教程 - 文章图片

那么接下来就是功能的实现了，我用PHP来写，首先第一步就是获取网站的html代码，获取html代码的方式也有很多，我就不一一介绍了，这里用了curl来获取，传入网站url就能得到html代码啦：

private function get_html($url){
 
 $ch = curl_init();
 
 $timeout = 10;
 
 curl_setopt($ch, CURLOPT_URL, $url);
 
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
 
 curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
 
 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36');
 
 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
 
 $html = curl_exec($ch);
 
 return $html;
 
}

虽然得到了html代码，但是很快你会遇到一个问题，那就是编码问题，这可能让你下一步的匹配无功而返，我们这里统一把得到的html内容转为utf8编码：

$coding = mb_detect_encoding($html);
if ($coding != "UTF-8" || !mb_check_encoding($html, "UTF-8"))
$html = mb_convert_encoding($html, 'utf-8', 'GBK,UTF-8,ASCII');

得到网站的html，要获取文章的url，那么下一步就是要匹配该网页下的所有a标签，需要用到正则表达式，经过多次测试，最终得到一个比较靠谱的正则表达式，不管a标签下结构多复杂，只要是a标签的都不放过：(最关键的一步)

$pattern = '|]*>(.*)|isU';
preg_match_all($pattern, $html, $matches);

匹配的结果在$matches中，它大概是这样的一个多维素组：

array(2) { 
 [0]=> 
 array(*) { 
  [0]=>
  string(*) "完整的a标签"
  .
  .
  .
 }
 [1]=>
 array(*) {
  [0]=>
  string(*) "与上面下标相对应的a标签中的内容"
 }
}

只要能得到这个数据，其他就完全可以操作啦，你可以遍历这个素组，找到你想要a标签，然后获取a标签相应的属性，想怎么操作就怎么操作啦，下面推荐一个类，让你更方便操作a标签：

$dom = new DOMDocument();
 
@$dom->loadHTML($a);//$a是上面得到的一些a标签
 
$url = new DOMXPath($dom);
 
$hrefs = $url->evaluate('//a');
 
for ($i = 0; $i < $hrefs->length; $i++) {
 
 $href = $hrefs->item($i);
 
 $url = $href->getAttribute('href'); //这里获取a标签的href属性
 
}

当然，这只是一种方式，你也可以通过正则表达式匹配你想要的信息，把数据玩出新花样。

得到并匹配得出你想要的结果，下一步当然就是传回前端将他们显示出来啦，把接口写好，然后前端用js获取数据，用jquery动态添加内容显示出来：

var website_url = '你的接口地址';
$.getJSON(website_url,function(data){
 if(data){
  if(data.text == ''){
   $('#article_url').html('暂无该文章链接');
   return;
  }
  var string = '';
  var list = data.text;
  for (var j in list) {
    var content = list[j].url_content;
    for (var i in content) {
     if (content[i].title != '') {
      string += '' +
       '[' + list[j].website.web_name + ']' +
       '' + content[i].title + '' +
       '';
     }
    }
   }
  $('#article_url').html(string);
});

上最终效果图：

php实现简单爬虫的开发，php实现爬虫_PHP教程 - 文章图片

您可能感兴趣的文章:

php IIS日志分析搜索引擎爬虫记录程序
php 向访客和爬虫显示不同的内容
一个PHP实现的轻量级简单爬虫
PHP实现简单爬虫的方法
PHP代码实现爬虫记录——超管用
PHP爬虫之百万级别知乎用户数据爬取与分析
PHP+HTML+JavaScript+Css实现简单爬虫开发

http://www.bkjia.com/PHPjc/1117098.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/1117098.htmlTechArticlephp实现简单爬虫的开发，php实现爬虫有时候因为工作、自身的需求，我们都会去浏览不同网站去获取我们需要的数据，于是爬虫应运而生，...

内容总结

以上是互联网集市为您收集整理的php实现简单爬虫的开发，php实现爬虫_PHP教程全部内容，希望文章能够帮你解决php实现简单爬虫的开发，php实现爬虫_PHP教程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/190415.html

来源：【匿名】

【上一篇】php爬虫抓取百度贴吧图片【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【php实现简单爬虫的开发，php实现爬虫_PHP教程】教程文章相关的互联网学习教程文章

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）【代码】【图】

Scrapy在window上的安装教程见下面的链接：Scrapy安装教程上述安装教程已实践，可行。本来打算在ubuntu上安装Scrapy的，但是Ubuntu 磁盘空间太少了，还没扩展磁盘空间，暂时不想再上面装太多软件。Scrapy的入门教程见下面链接：Scrapy入门教程上面的入门教程是很基础的，先跟着作者走一遍，要动起来哟，不要只是阅读上面的那篇入门教程，下面我简单总结一下Scrapy爬虫过程：1、在Item中定义自己要抓取的数据：movie_name就像是字典...

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来【代码】【图】

想学爬虫主要是因为算法和数据是密切相关的，有数据之后可以玩更多有意思的事情，数据量大可以挖掘挖掘到更多的信息。之前只会通过python中的request库来下载网页内容，再用BeautifulSoup、re正则工具来解析；后来了解到Scrapy爬虫框架，现在入门先写个小小的爬虫项目，这里做个简单的总结和记录。官方教程：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html（包括安装指南）Github：https://github.com/scrapy ...

Python爬虫人工智能大数据全栈视频史上最全合辑教程分享！【图】

Python爬虫人工智能大数据全栈视频史上最全合辑教程分享！毫无疑问Python是这两年最火的编程语言，不仅容易上手，且在多个行业都可应用。尤其今年人工智能及大数据的发展，Python将会展现更多的实用性！如果你是小白想改变自己的职业方向，抓紧时间上车…精心整理的资料和课程都在下面!Python全栈作为小白，想要快速入门，并且励志做python全栈工程师的话，这个视频课程非常适合入手：获取统一设置在文末，欢迎查阅！大数据、云计算...

phpIIS日志分析搜索引擎爬虫记录程序第1/2页_PHP教程

使用注意：　　修改iis.php文件中iis日志的绝对路径　　例如：$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。　　( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看! 　　直接查看法：http://站点域名/iis.php 　　本地查看法：把日志下载到本地 http://127.0.0.1/iis.php ) 　　注意：　　//站点日志目录，注意该目录必须要有站点用户读取权限! 　　//如果把日志下载到本地请修...

php向访客和爬虫显示不同的内容_PHP教程

听说本方法会触犯搜索引擎的一些操作原则, 有可能被被各搜索引擎处罚, 甚至删除网站. 所以我刚刚已经撤下这样的处理, 直到确定其不属于作弊. 有魄力的朋友可以继续使用, 但后果自负. 本博客的首页和存档页面以列表的形式显示文章, 在访客点击展开文章时才加载文章的内容. 因为文章的内容部分包含了大量的文字和图片, 需要大量的加载时间和流量. 尽快地向访客展示网页可以挽留大量的来访者. 而对于手机用户来说, 加载时间和流量则更...

PHP实现向访客和爬虫显示不同的内容_PHP教程【图】

为了提高网页的用户体验, 我们经常会做一些对搜索引擎不太友好的事情, 但某些情况下这并不是无法挽回的, 可以通过向自然人和搜索引擎机器人显示不同的内容来提供好的用户体验和 SEO.听说本方法会触犯搜索引擎的一些操作原则, 有可能被被各搜索引擎处罚, 甚至删除网站. 所以我刚刚已经撤下这样的处理, 直到确定其不属于作弊. 有魄力的朋友可以继续使用, 但后果自负.本博客的首页和存档页面以列表的形式显示文章, 在访客点击展开文章...

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫_PHP教程【图】

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫来源：http://www.ido321.com/1158.html抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。一、Ganon 项目地址： http://code.google.com/p/ganon/ 文档： http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值...

一个PHP实现的轻量级简单爬虫，爬虫_PHP教程

一个PHP实现的轻量级简单爬虫，爬虫最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬虫的原理其实很简单，就是分析下载的页面，找出其中的连接，然后再下载这些链接，再分析再下载，周而复始。在数据存储方面，数据库是首选，便于检索，而开发语言，只要支持正则表达式...

PHP实现简单爬虫的方法，php实现爬虫_PHP教程

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @pa...

PHP代码实现爬虫记录——超管用，php代码爬虫_PHP教程【图】

PHP代码实现爬虫记录——超管用，php代码爬虫实现爬虫记录本文从创建crawler 数据库，robot.php记录来访的爬虫从而将信息插入数据库crawler,然后从数据库中就可以获得所有的爬虫信息。实现代码具体如下：数据库设计create table crawler ( crawler_ID bigint() unsigned not null auto_increment primary key,crawler_category varchar() not null,crawler_date datetime not null default -- ::,crawler_url varchar() not nu...

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言_PHP教程【图】

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言看了不少朋友圈里推荐的Python爬虫文章，都觉得太小儿科，处理内容本来就是PHP的强项，Python唯一的好处估计也就天生的Linux自带，和Perl一样，这点觉得挺不够意思的Linux，还是Mac厚道，天生就自带了Python、Perl、PHP、Ruby，当然我也很讨厌讨论一门语言的好坏，每门语言存在就一定有它的道理，反正PHP是全世界最好用的语言，大家都懂的^_^前几天比较火...

Selenium爬虫Driver的选择_PHP教程【图】

Selenium爬虫Driver的选择由于Chrome速度快，因此很早便使用Chrome Driver淘汰了IE Driver和PhantomJS Driver。最近的抓取工作出现了一个令人头疼的事情，单开一个Driver做while1循环，每隔5分钟扫描抓取目标对象。然而Chrome Driver总是会在4~5个小时僵死掉。我做了性能和时间的记录：Turn 1:硕博家园2016-1-6 16:45:00Mem 1.45GB2016-1-6 17:06:45Mem 1.43GBchrome 38,000k2016-1-6 17:14:14Turn 2:考研版块2016-1-6 17:19:14M...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / php实现简单爬虫的开发，php实现爬虫_PHP教程

php实现简单爬虫的开发，php实现爬虫_PHP教程

内容导读

内容图文

php实现简单爬虫的开发，php实现爬虫

您可能感兴趣的文章:

内容总结

内容备注

内容手机端

【php实现简单爬虫的开发，php实现爬虫_PHP教程】教程文章相关的互联网学习教程文章

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）【代码】【图】

[爬虫] 学Scrapy，顺便把它的官方教程给爬下来【代码】【图】

Python爬虫人工智能大数据全栈视频史上最全合辑教程分享！【图】

phpIIS日志分析搜索引擎爬虫记录程序第1/2页_PHP教程

php向访客和爬虫显示不同的内容_PHP教程

PHP实现向访客和爬虫显示不同的内容_PHP教程【图】

网页抓取：PHP实现网页爬虫方式小结，抓取爬虫_PHP教程【图】

一个PHP实现的轻量级简单爬虫，爬虫_PHP教程

PHP实现简单爬虫的方法，php实现爬虫_PHP教程

PHP代码实现爬虫记录——超管用，php代码爬虫_PHP教程【图】

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言_PHP教程【图】

Selenium爬虫Driver的选择_PHP教程【图】

PHP爬虫之百万级别知乎用户数据爬取与分析，php爬虫_PHP教程【图】

PHP爬虫：百万级别知乎用户数据爬取与分析_PHP教程【图】

PHP+HTML+JavaScript+Css实现简单爬虫开发，javascriptcss_PHP教程【图】

PHP - 相关标签

爬虫 - 相关标签

开发 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程