首页 / PHP / phpcurl_multi_exec()并发抓取网页内容

phpcurl_multi_exec()并发抓取网页内容

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了phpcurl_multi_exec()并发抓取网页内容，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4849字，纯文字阅读大概需要7分钟。

内容图文

php curl_multi_exec()并发抓取网页内容

php是个单线程的语言，于是在某方面速率比不上java这种多线程的语言，毕竟主打方面不在这里..但是php也有自己的多线程（其实是并发）方法--curl_multi_exec().

我们可以用curll来获取网页的内容（不懂curl的可以找个简单的例子来看看），但是若是同时获取多个网页的内容，速度就不太理想，这个时候curl_multi_exec()就可以发挥作用了。

下面是我在抓取优酷网内容的例子：

function async_get_url($url_array, $wait_usec = 0)
{
    if (!is_array($url_array))
        return false;
                                                                                          
    $wait_usec = intval($wait_usec);
                                                                                          
    $data    = array();
    $handle  = array();
    $running = 0;
                                                                                          
    $mh = curl_multi_init(); // multi curl handler
                                                                                          
    $i = 0;
    foreach($url_array as $url) {
        $ch = curl_init();
                                                                                          
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't print
        curl_setopt($ch, CURLOPT_TIMEOUT, 30);
        curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect
        curl_setopt($ch, CURLOPT_MAXREDIRS, 7);
                                                                                          
        curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl handler 裡
                                                                                          
        $handle[$i++] = $ch;
    }
                                                                                          
    /* 此做法就可以避免掉 CPU loading 100% 的問題 */
    // 參考自: http://www.hengss.com/xueyuan/sort0362/php/info-36963.html
                                                                                          
    do {
        $mrc = curl_multi_exec($mh, $active);
    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
                                                                                          
    while ($active and $mrc == CURLM_OK) {
        if (curl_multi_select($mh) != -1) {
            do {
                $mrc = curl_multi_exec($mh, $active);
            } while ($mrc == CURLM_CALL_MULTI_PERFORM);
        }
    }
    /*
     // 感謝 Ren 指點的作法. (需要在測試一下)
    // curl_multi_exec的返回值是用來返回多線程處裡時的錯誤，正常來說返回值是0，也就是說只用$mrc捕捉返回值當成判斷式的迴圈只會運行一次，而真的發生錯誤時，有拿$mrc判斷的都會變死迴圈。
    // 而curl_multi_select的功能是curl發送請求後，在有回應前會一直處於等待狀態，所以不需要把它導入空迴圈，它就像是會自己做判斷&自己決定等待時間的sleep()。
    /* 讀取資料 */
    foreach($handle as $i => $ch) {
        $content  = curl_multi_getcontent($ch);
        $data[$i] = (curl_errno($ch) == 0) ? $content : false;
    }
                                                                                          
    /* 移除 handle*/
    foreach($handle as $ch) {
        curl_multi_remove_handle($mh, $ch);
    }
                                                                                          
    curl_multi_close($mh);
                                                                                          
    return $data;
}
                                                                                          
$url="http://m.youku.com/wap/";
$reg1="/(.*?)<\/a>/i";//获取视频链接
$reg2="/<img([^>]*)\s*class=\"imgdetail\"\s*src=('|\")([^'\"]+)('|\")/i";
$reg3="";
$reg4= "/<p\s*class=\"videotitle\".*?>.*?<\/p>/i";//获取视频标题（备选）
                                                                                          
// 创建两个cURL资源
$ch1 = curl_init();
$resultArray=array();//装载所有数据的数组
$ch=array();
//$ch2 = curl_init();
// 指定URL和适当的参数
curl_setopt($ch1, CURLOPT_URL,$url);
curl_setopt($ch1, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch1, CURLOPT_HEADER, 0);
$content=curl_exec($ch1);
curl_close($ch1);
//$content=file_get_contents($url);
preg_match_all($reg1, $content,$matches);
$video=$matches[0];//首页视频的链接
//print_r($video);
foreach ($video as $a=>$key)
{
    $position=strpos($key, "href");
    $substring=substr($key, $position+11);
    $pos=strpos($substring, ">");
    $link=substr($substring, 0,$pos-1);
    $nextUrl[$a]=$url.$link;
}
//$url_array = array(
    //  'http://www.google.com',
    //  'http://www.baidu.com',
//);
//print_r($nextUrl);
//print_r(async_get_url($nextUrl));
//并发获取所有网页的内容
$allData=async_get_url($nextUrl);
foreach ($allData as $page)
{
    //获取视频图片
    preg_match_all($reg2, $page,$img);
    $img_arr=$img[0];
    foreach ($img_arr as $arr)
    {
        $position=strpos($arr, "src");
        $sub=substr($arr, $position+5);
        $pos=strpos($sub, "\"");
        $last=substr($sub, 0,$pos);
    }
    //获取视频高清点播地址
    preg_match_all($reg3, $page,$vids);
    $video_arr=$vids[0];
    $vid=$video_arr[0];
    $position=strpos($vid, "href");
    $v_string=substr($vid, $position+11);
    $pos=strpos($v_string, "\"");
    $add=substr($v_string, 0,$pos);
    $video_url=$url.$add;
    //获取视频的标题
    preg_match_all($reg4, $page,$match);
    $title=$match[0];
    //print_r($er);
    $r=serialize($title);
    $position=mb_strpos($r, "");
    $sub=substr($r, 0,$position);
    $pos=mb_strrpos($sub, ">");
    $til=substr($sub, $pos+1);
                                                                                              
    //整合到一个数组
    $subArray=array('image'=>$last,'video'=>$video_url,'title'=>$til);
    array_push($resultArray, $subArray);
}
echo json_encode($resultArray);

重点在与async_get_url这个函数

do {
        $mrc = curl_multi_exec($mh, $active);
    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
      
    while ($active and $mrc == CURLM_OK) {
        if (curl_multi_select($mh) != -1) {
            do {
                $mrc = curl_multi_exec($mh, $active);
            } while ($mrc == CURLM_CALL_MULTI_PERFORM);
        }
    }

上面那段是重点也是难点。

第一个循环，$mrc == CURLM_CALL_MULTI_PERFORM（-1）表明了还有句柄资源没有处理，于是就继续$mrc = curl_multi_exec($mh, $active)

要特别说明的是$mrc和$active都是integer类型的；

当$mrc== CURLM_OK（0），就表明了还有资源，但还没有到达。

这是就到第二个循环了：

（while）要是有资源还没有到达

(if)如果cURL批处理连接中有活动连接--也就是说句柄有事干了（具体可以参考php手册）

（do-while）处理句柄资源

curl并发处理因为官方文档比较简练，我自己也查了好多英文文档才略懂。

希望大家能一起进步！

参考文档：

http://technosophos.com/content/php-and-curlmultiexec

http://blog.longwin.com.tw/2009/10/php-multi-thread-curl-2009/

内容总结

以上是互联网集市为您收集整理的phpcurl_multi_exec()并发抓取网页内容全部内容，希望文章能够帮你解决phpcurl_multi_exec()并发抓取网页内容所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/206425.html

来源：【匿名】

【上一篇】PHP代码utf-8中文截取函数，单字节截取模式【下一篇】PHP 5 数据对象 (PDO) 抽象层与 Oracle

更多 ►

【phpcurl_multi_exec()并发抓取网页内容】教程文章相关的互联网学习教程文章

PHP curl_setopt函数用法介绍【代码】

[导读] curl_setopt函数是php中一个重要的函数，它可以模仿用户的一些行为，如模仿用户登录，注册等等一些用户可操作的行为哦。bool curl_setopt (int ch, string option, mixed value)curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置，value是这个选项给定的值伪造登录主站wap登录和discuz论坛wap登录，两边的用户数据资料在同一个表中进行调用 //参数数组$data = array(‘username’ => ‘username’,‘pa...

php使用cUrl方法 get、post请求【代码】

php使用curl方法，请确保已经开启curl扩展。传送门：http://www.cnblogs.com/wgq123/p/7450667.html/**Curl请求get方法 *@$url String 要请求的url地址 *@$dara Array 要传递的参数 *@$timeout int 超时时间 *@return json /function curlGetRequest($url=‘‘, $data=array(), $timeout=5){if($url == ‘‘ || $timeout <=0){returnfalse;}$param = ‘‘;if(!empty($data)){foreach($dataas$k=>$v){$param .= $k ...

Linux 编译安装 php 扩展包 curl

php源码目录：/root/phpphp编译目录：/usr/local/webserver/php/curl源码目录：/root/curl1.curl，主要用于发送http请求，是php的一个扩展包。2.安装过程：（1）curl下载：http://curl.haxx.se/download.html（2）具体安装过程：解压：tar -zxvf curl.tar.gzcd /（php源码目录，不是php编译目录）/ext/curl运行phpize： /（php编译目录）/bin/phpize./configure --with-php-config=/（php编译目录）/bin/php-config --with-curl=...

PHP CURL获取cookies模拟登录的方法【图】

要提取google搜索的部分数据，发现google对于软件抓取它的数据屏蔽的厉害，以前伪造下 USER-AGENT 就可以抓数据，但是现在却不行了。利用抓包数据发现，Google 判断了 cookies，当你没有cookies的时候，直接返回 302 跳转，而且是连续几十个302跳转，根本抓不了数据。因此，在发送搜索命令时，需要先提取 cookies 并保存，然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理，先POST...

php中通过curl模拟登陆discuz论坛的实现代码

libcurl同时也支持HTTPS认证、HTTP POST、HTTP PUT、 FTP 上传(这个也能通过PHP的FTP扩展完成)、HTTP 基于表单的上传、代理、cookies和用户名+密码的认证。 php的curl真的是相当好用，网上一搜索相关文章都是关于curl模拟登陆的，很少人提供模拟discuz发贴的源码。复制代码代码如下:<?php $discuz_url = ‘http://127.0.0.1/discuz/‘;//论坛地址 $login_url = $discuz_url .‘logging.php?action=login‘;//登录页地址 $post_fi...

PHP curl 简单使用【代码】

<?php//初始化变量$cookie_file = tempnam(‘./‘,‘cookie‘);$ip1 = mt_rand(1,127) . ‘.‘ . mt_rand(1,127) . ‘.‘ . mt_rand(1,127) . ‘.‘ . mt_rand(1,127);$header = array( ‘CLIENT-IP:‘ . $ip1, ‘X-FORWARDED-FOR:‘ . $ip1,);$login_url = ‘http://www.kangyq.com/do.php?ac=Christopher&&ref‘;$refer = ‘space.php?do=home‘;$loginsubmit = ‘登陆‘;$post_fields = ‘user...

curl学习笔记（以php为例）【代码】

一、demo，抓取百度页码代码： $url = ‘https://www.baidu.com/‘;$ch = curl_init($url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);curl_setopt($ch, CURLOPT_HEADER, FALSE);curl_setopt($ch, CURLOPT_TIMEOUT, 120);$html = curl_exec($ch);curl_close($ch);var_dump($html);二、curl函数介绍：1、curl_init($url)：初始化curl回话，返回资源类型2、curl_setopt($c...

php curl【代码】

curl 模拟post提交 1$url = ‘http://localhost/url.php‘;2 3$arr = [4 ‘username‘ => ‘Tom‘,5 ‘age‘ => 20,6 ‘sex‘ => ‘男‘7];8$ch = curl_init();910 curl_setopt($ch, CURLOPT_URL, $url); 11 curl_setopt($ch, CURLOPT_HEADER, 0); 12 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 13 curl_setopt($ch, CURLOPT_POST, 1); 14 curl_setopt($ch, CURLOPT_POSTFIELDS, $arr); 1516$data = curl_exec($ch...

[转]考虑 PHP 5.0~5.6 各版本兼容性的 cURL 文件上传【代码】

FROM : https://segmentfault.com/a/1190000000725185最近做的一个需求，要通过PHP调用cURL，以multipart/form-data格式上传文件。踩坑若干，够一篇文章了。重要警告没事不要读PHP的官方中文文档！版本跟不上坑死你！不同版本PHP之间cURL的区别PHP的cURL支持通过给CURL_POSTFIELDS传递关联数组（而不是字符串）来生成multipart/form-data的POST请求。传统上，PHP的cURL支持通过在数组数据中，使用“@+文件全路径”的语法附加文件，...

PHP使用CURL设置header头传参以及设置Content-Type: application/json类型的后台数据接收

CURL函数 public function CurlRequest($url,$data=null,$header=null){ 　　//初始化浏览器　　$ch = curl_init(); 　　//设置浏览器，把参数url传到浏览器的设置当中　　curl_setopt($ch, CURLOPT_URL, $url); 　　//以字符串形式返回到浏览器当中　　curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 　　//禁止https协议验证域名，0就是禁止验证域名且兼容php5.6 ...

PHP实现curl和snoopy类模拟登陆方法【代码】

Snoopy.class.php下载方法/步骤第一种：使用snoopy类实现模拟登陆1.在网上下载一个Snoopy.class.php的文件 2.代码实现：<?phpset_time_limit(0);require "Snoopy.class.php";$snoopy=new Snoopy();$snoopy->referer=‘你要模拟登陆的域名‘;//例如：http://www.baidu.com/$snoopy->agent="定义浏览器根";$post[‘username‘] =‘登陆账号‘;//根据你要模拟登陆的网站具体的传值名称来定$post[‘password‘] =‘登陆密码‘;//根据...

php运行报Call to undefined function curl_init()的解决办法

很早之前就出现过这个问题，网上百度了下，答案千篇一律，都是说：1、在php.ini中开启curl扩展2、将php目录下的libeay32.dll、ssleay32.dll、php5ts.dll拷贝到c:\windows\system32里面（还有一种方法是说在httpd.conf中加上动态链接库，如：LoadFile d:/php/libeay32.dll 和 LoadFile d:/php/ssleay32.dll，但我试过了，同样不起作用）3、重启apache，OK！不知道这些人是不是真的试过而且成功了，就把这些所谓的解决方案往网上分享...

nginx+php下curl请求https报502错【代码】

在做公司项目的时候使用了第三方的API接口，且接口采用的是https请求，在本地的wamp集成环境开发测试正常，放到服务器上结果报错 nginx 502 bad gateway。在论坛中爬楼了几天今天终于找到原因，php版本问题；公司项目线上环境：服务器安装了wdcp其中nginx是1.4.2版本 php是5.2.17版本部署项目上去后，怎么运行都报502错，刚开始怀疑是nginx配置问题，百度了许久说请求https需要ssl于是配置了nginx的ssl后问题依旧，无奈只好继续搜索...

在PHP中使用CURL实现GET和POST请求的方法

1.CURL介绍CURL是一个利用URL语法规定来传输文件和数据的工具.支持很多协议，如HTTP、FTP、TELNET等。幸运的是PHP也支持CURL库。本文将介绍curl的一些高级特性，以及在PHP中如何运用它。2.基本结构在学习更为复杂的功能之前，先来看一下在PHP中建立CURL请求的基本步骤：（1）初始化 curl_init()（2）设置变量 curl_setopt() //最为重要，一切玄妙均在此。有一长串curl参数可供设置，它们能指定URL请求的各个细节。要一次性全部看完...

PHP socket网络编程之使用curl

PHPsocket 网络编程之使用cURLcURl代表客户端URL，是一种专门处理URL的命令行工具。本文介绍cURl打开网页并向其提交数据。【示例】：cURL库被PHP用于向页面传递数据<?PHP//创建cURL事务$url = 'HTTP://localhost/service.php';$curl = curl_init($url);//如果发生错误，直接运行失败curl_setopt($curl,CURLOPT_FAILONERROR,1);//支持重定向curl_setopt($curl,CURLOPT_FOLLOWLOCATION,1);//设置是否将处理结果存入一个变量的选项cur...

首页 / PHP / phpcurl_multi_exec()并发抓取网页内容

phpcurl_multi_exec()并发抓取网页内容

内容导读

内容图文

内容总结

内容备注

内容手机端

【phpcurl_multi_exec()并发抓取网页内容】教程文章相关的互联网学习教程文章

PHP curl_setopt函数用法介绍【代码】

php使用cUrl方法 get、post请求【代码】

Linux 编译安装 php 扩展包 curl

PHP CURL获取cookies模拟登录的方法【图】

php中通过curl模拟登陆discuz论坛的实现代码

PHP curl 简单使用【代码】

curl学习笔记（以php为例）【代码】

php curl【代码】

[转]考虑 PHP 5.0~5.6 各版本兼容性的 cURL 文件上传【代码】

PHP使用CURL设置header头传参以及设置Content-Type: application/json类型的后台数据接收

PHP实现curl和snoopy类模拟登陆方法【代码】

php运行报Call to undefined function curl_init()的解决办法

nginx+php下curl请求https报502错【代码】

在PHP中使用CURL实现GET和POST请求的方法

PHP socket网络编程之使用curl

PHP - 相关标签

URL - 相关标签

并发 - 相关标签

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程