【页面抓取!该如何处理】教程文章相关的互联网学习教程文章

php抓取https的内容的代码

直接用file_get_contents,会报错; 代码如下:$url = (https://xxx.com"); file_get_contents($url); 错误: Warning: file_get_contents(https://xxx.com) [function.file-get-contents]: failed to open stream: No such file or directory in D:wampwwwgrabber_clientindex.php on line 3 用curl的方式是可以的: 代码如下:$url = (https://xxx.com); $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($...

PHP 抓取网页图片并且另存为的实现代码

下面是源代码,及其相关解释 代码如下:<?php //URL是远程的完整图片地址,不能为空, $filename 是另存为的图片名字 //默认把图片放在以此脚本相同的目录里 function GrabImage($url, $filename=""){ //$url 为空则返回 false; if($url == ""){return false;} $ext = strrchr($url, ".");//得到图片的扩展名 if($ext != ".gif" && $ext != ".jpg" && $ext != ".bmp"){echo "格式不支持!";return false;} if($filename == ""){$fil...

php抓取页面与代码解析 推荐

得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来。下面先简单说一下本文的主要内容: 一、 PHP抓取页面的主要方法: 1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4.curl方式 5. fsockopen()函数 socket模式 6. 使用插件(如:http://sourceforge.net/projects/snoopy/) 二、PHP解析html或xml代码主要方式: 1. 正则表达式 2. PHP DOMDocument对象...

PHP多线程抓取网页实现代码

受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 代码如下:<?php $urls = array( http://www.sina.com.cn/, http://www.sohu.com/, http://www.163.com/ ); // 设置要...

php curl 登录163邮箱并抓取邮箱好友列表的代码(经测试)

CURL技术说白了就是模拟浏览器的动作实现页面抓取或表单提交,通过此技术可以实现许多有去的功能。 代码如下:<?php error_reporting(0); //邮箱用户名(不带@163.com后缀的) $user = papatata_test; //邮箱密码 $pass = 000000; //目标邮箱 //$mail_addr = uenucom@163.com; //登陆 $url = http://reg.163.com/logins.jsp?type=1&url=http://entry.mail.163.com/coremail/fcg/ntesdoor2?lightweight%3D1%26verifycookie%3D1%26lan...

PHP的cURL库功能简介 抓取网页、POST数据及其他

无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,反应釜cURL 是一个功能强大的PHP库。本文主要讲述如果使用这个PHP库。   启用 cURL 设置   首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息。 代码如下:<?php phpinfo(); ?>   如果你可以在网页上看到下面的输出,那么表示cURL库已被开启。   如果你看到的话,那么你...

PHP中使用CURL伪造来路抓取页面或文件

代码如下:// 初始化 $curl = curl_init(); // 要访问的网址 curl_setopt($curl, CURLOPT_URL, http://asen.me/); // 设置来路 curl_setopt($curl, CURLOPT_REFERER, http://google.com/); // 不直接输入内容 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 降结果保存在$result中 $result = curl_exec($curl); // 关闭 curl_close($curl); 注意啦, 使用这个方法, 要确保你的 PHP 环境支持并且开启了 CURL 模块.

php下通过curl抓取yahoo boss 搜索结果的实现代码

1.编写curl类,进行网页内容抓取 代码如下:class CurlUtil { private $curl; private $timeout = 10; /** * 初始化curl对象 */ public function __construct() { $this->curl = curl_init(); curl_setopt($this->curl, CURLOPT_RETURNTRANSFER, 1); curl_setopt($this->curl, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"); curl_setopt($this->curl, CURLOPT_HEADER, false); //设定是否显示头...

PHP CURL模拟登录新浪微博抓取页面内容 基于EaglePHP框架开发

代码如下:/** * CURL请求 * @param String $url 请求地址 * @param Array $data 请求数据 */ function curlRequest($url,$data=,$cookieFile=){ $ch = curl_init(); $option = array( CURLOPT_URL => $url, CURLOPT_HEADER =>0, CURLOPT_RETURNTRANSFER => 1, ); if($cookieFile){ $option[CURLOPT_COOKIEJAR] = $cookieFile; $option[CURLOPT_COOKIEFILE] = $cookieFile; //$option[CURLOPT_COOKIESESSION] = true; //$option[CUR...

php抓取页面的几种方法详解

在 做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来。下面简单说一下php抓取页面的几种方法及原理:一、 PHP抓取页面的主要方法:1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式...

深入file_get_contents函数抓取内容失败的原因分析

用file_get_contents来抓取页面内容不成功,可能是因为有些主机服务商把php的allow_url_fopen选项是关闭了,就是没法直接使用file_get_contents来获取远程web页面的内容。那就是可以使用另外一个函数curl。下面是file_get_contents和curl两个函数同样功能的不同写法file_get_contents函数的使用示例: 代码如下:< ?php$file_contents = file_get_contents(‘//www.gxlcms.com');echo $file_contents;?>换成curl函数的使用示例: 代码...

利用curl抓取远程页面内容的示例代码

最基本的操作如下 代码如下:$curlPost = 'a=1&b=2';//模拟POST数据$ch = curl_init();curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IPcurl_setopt($ch, CURLOPT_REFERER, "//www.gxlcms.com/"); //构造来路 curl_setopt($ch,CURLOPT_URL, '//www.gxlcms.com');//需要抓取的页面路径curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($ch, CURLOPT_TIMEOUT,...

一个PHP的远程图片抓取函数分享

代码如下:function grabImage($url, $filename = ) { if($url == ) { return false; //如果 $url 为空则返回 false; } $ext_name = strrchr($url, .); //获取图片的扩展名 if($ext_name != .gif && $ext_name != .jpg && $ext_name != .bmp && $ext_name != .png) { return false; //格式不在允许的范围 } if($filename == ) { $filename = time().$ext_name; //以时间戳另起名 } //开始捕获 ob_start(); readfile($url); $img_dat...

使用Curl进行抓取远程内容时url中文编码问题示例探讨

PHP中对于URL进行编码,可以使用 urlencode() 或者 rawurlencode(),二者的区别是前者把空格编码为 '+',而后者把空格编码为 '%20',不过应该注意的是,在编码时应该只对部分URL编码,否则URL中的冒号和反斜杠也会被转义。下面是详细解释: 代码如下:string urlencode( string str) 返回字符串,此字符串中除了 -_. 之外的所有非字母数字字符都将被替换成百分号(%)后跟两位十六进制数,空格则编码为加号(+)。 例子 1 :urlen...

使用PHP curl模拟浏览器抓取网站信息

官方解释curl是一个利用URL语法在命令行方式下工作的文件传输工具。curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies, 用户名/密码认证, 下载文件断点续传,上载文件断点续传, http代理服务器管道( proxy tunneling), 甚至它...