首页 / PHP / php文章内容抓取

php文章内容抓取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php文章内容抓取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含9674字，纯文字阅读大概需要14分钟。

内容图文

求大神帮忙抓取这个网页http://sports.sohu.com/zhongchao.shtml的排行榜部分的数据（包括积分榜和射手榜）

回复讨论(解决方案)

抓取研究研究 phpquery

$url = 'http://sports.sohu.com/zhongchao.shtml';$s = file_get_contents($url);preg_match_all('/(?<=)\s<table.+table>/isU', $s, $m);print_r(preg_grep('/名次/', $m[0]));

Array(    [2] => ......名次 球队 场次 积分
01 广州恒大 20 45
02 北京国安

名次	球队	场次	积分
01	广州恒大	20	45
02	北京国安

接下来自己做

可以使用preg_match去抓取对应的HTML代码然后再正则过滤你想要的数据即可。

给你推荐个类 simple_html_dom

include "simple_html_dom.class.php";$url = "http://sports.sohu.com/zhongchao.shtml";$dom = new simple_html_dom();$html = $dom->load(file_get_contents($url));$res = $html->find("div#turnIDB div.turn");# 积分榜echo $res[0]->outertext;# 射手榜echo $res[1]->outertext;

结果

$str=file_get_contents("http://sports.sohu.com/zhongchao.shtml");preg_match_all('/\s*(.+?)<\/td>\s*(.+?)<\/td>\s*(\d+)<\/td>\s*(.+?)<\/td>\s*<\/tr>/i',$str,$match1);foreach($match1 as $k=>$v){	if($k!=0){		foreach($v as $k1=>$v1){			if($k1<=15){				$jifen[$k][]=$v1;			}else{				$sheshou[$k][]=$v1;			}		}	}}echo "";print_r($jifen);print_r($sheshou);echo "
";/*Array(    [1] => Array        (            [0] => 01            [1] => 02            [2] => 03            [3] => 04            [4] => 05            [5] => 06            [6] => 07            [7] => 08            [8] => 09            [9] => 10            [10] => 11            [11] => 12            [12] => 13            [13] => 14            [14] => 15            [15] => 16        )    [2] => Array        (            [0] => 广州恒大            [1] => 北京国安            [2] => 广州富力            [3] => 上海东亚            [4] => 贵州茅台            [5] => 山东鲁能            [6] => 天津泰达            [7] => 江苏舜天            [8] => 上海绿地            [9] => 长春亚泰            [10] => 杭州绿城            [11] => 大连阿尔滨            [12] => 上海申鑫            [13] => 河南建业            [14] => 辽宁宏运            [15] => 哈尔滨毅腾        )    [3] => Array        (            [0] => 20            [1] => 19            [2] => 19            [3] => 19            [4] => 19            [5] => 19            [6] => 19            [7] => 18            [8] => 20            [9] => 19            [10] => 19            [11] => 19            [12] => 19            [13] => 19            [14] => 19            [15] => 18        )    [4] => Array        (            [0] => 45            [1] => 41            [2] => 34            [3] => 31            [4] => 30            [5] => 28            [6] => 27            [7] => 25            [8] => 23            [9] => 21            [10] => 21            [11] => 20            [12] => 19            [13] => 17            [14] => 16            [15] => 12        ))Array(    [1] => Array        (            [0] => 01            [1] => 02            [2] => 03            [3] => 04            [4] => 04            [5] => 04            [6] => 04            [7] => 08            [8] => 09            [9] => 09            [10] => 09            [11] => 09            [12] => 09            [13] => 09            [14] => 15            [15] => 15        )    [2] => Array        (            [0] => 埃尔克森            [1] => 哈默德            [2] => 海森            [3] => 达维            [4] => 多利            [5] => 洛维            [6] => 拉蒙            [7] => 德扬            [8] => 巴塔拉            [9] => 布鲁诺            [10] => 里卡多            [11] => 武磊            [12] => 埃尼奥            [13] => 尤里            [14] => 莫雷诺            [15] => 雷内        )    [3] => Array        (            [0] => 17            [1] => 16            [2] => 13            [3] => 9            [4] => 9            [5] => 9            [6] => 9            [7] => 8            [8] => 7            [9] => 7            [10] => 7            [11] => 7            [12] => 7            [13] => 7            [14] => 6            [15] => 6        )    [4] => Array        (            [0] => 广州恒大            [1] => 广州富力            [2] => 上海东亚            [3] => 广州富力            [4] => 哈尔滨毅腾            [5] => 山东鲁能            [6] => 杭州绿城            [7] => 北京国安            [8] => 北京国安            [9] => 大连阿尔滨            [10] => 哈尔滨毅腾            [11] => 上海东亚            [12] => 长春亚泰            [13] => 贵州茅台            [14] => 上海绿地            [15] => 广州恒大        ))*/

后面的自己处理吧

$url = 'http://sports.sohu.com/zhongchao.shtml';$s = file_get_contents($url);preg_match_all('/(?<=)\s<table.+table>/isU', $s, $m);print_r(preg_grep('/名次/', $m[0]));

Array(    [2] => ......名次 球队 场次 积分
01 广州恒大 20 45
02 北京国安

名次	球队	场次	积分
01	广州恒大	20	45
02	北京国安

接下来自己做
我输出出来的怎么是一个空数组

sohu的页面是gb2312的，采集后需要转utf8，否则会乱码

echo '';$url = 'http://sports.sohu.com/zhongchao.shtml';$s = file_get_contents($url);$s = iconv('GBK','UTF8', $s); // gb2312转utf8preg_match_all('/(?<=)\s<table.+table>/isU', $s, $m);// 获取积分榜preg_match_all('/\s*(.+?)<\/td>\s*(.+?)<\/td>\s*(\d+)<\/td>\s*(.+?)<\/td>\s*<\/tr>/i',$m[0][2],$scores);$scoreboard = array();for($i=0,$len=count($scores[1]); $i<$len; $i++){	$tmp = array($scores[1][$i],strip_tags($scores[2][$i]),$scores[3][$i],$scores[4][$i]);	array_push($scoreboard, $tmp);}print_r($scoreboard);// 射手榜preg_match_all('/\s*(.+?)<\/td>\s*(.+?)<\/td>\s*(\d+)<\/td>\s*(.+?)<\/td>\s*<\/tr>/i',$m[0][3],$shooters);$shooterboard = array();for($i=0,$len=count($shooters[1]); $i<$len; $i++){	$tmp = array($shooters[1][$i],strip_tags($shooters[2][$i]),$shooters[3][$i],$shooters[4][$i]);	array_push($shooterboard, $tmp);}print_r($shooterboard);

积分榜

Array(    [0] => Array        (            [0] => 01            [1] => 广州恒大            [2] => 20            [3] => 45        )    [1] => Array        (            [0] => 02            [1] => 北京国安            [2] => 19            [3] => 41        )    [2] => Array        (            [0] => 03            [1] => 广州富力            [2] => 19            [3] => 34        )    [3] => Array        (            [0] => 04            [1] => 上海东亚            [2] => 19            [3] => 31        )    [4] => Array        (            [0] => 05            [1] => 贵州茅台            [2] => 19            [3] => 30        )    [5] => Array        (            [0] => 06            [1] => 山东鲁能            [2] => 19            [3] => 28        )    [6] => Array        (            [0] => 07            [1] => 天津泰达            [2] => 19            [3] => 27        )    [7] => Array        (            [0] => 08            [1] => 江苏舜天            [2] => 18            [3] => 25        )    [8] => Array        (            [0] => 09            [1] => 上海绿地            [2] => 20            [3] => 23        )    [9] => Array        (            [0] => 10            [1] => 长春亚泰            [2] => 19            [3] => 21        )    [10] => Array        (            [0] => 11            [1] => 杭州绿城            [2] => 19            [3] => 21        )    [11] => Array        (            [0] => 12            [1] => 大连阿尔滨            [2] => 19            [3] => 20        )    [12] => Array        (            [0] => 13            [1] => 上海申鑫            [2] => 19            [3] => 19        )    [13] => Array        (            [0] => 14            [1] => 河南建业            [2] => 19            [3] => 17        )    [14] => Array        (            [0] => 15            [1] => 辽宁宏运            [2] => 19            [3] => 16        )    [15] => Array        (            [0] => 16            [1] => 哈尔滨毅腾            [2] => 18            [3] => 12        ))

射手榜

Array(    [0] => Array        (            [0] => 01            [1] => 埃尔克森            [2] => 17            [3] => 广州恒大        )    [1] => Array        (            [0] => 02            [1] => 哈默德            [2] => 16            [3] => 广州富力        )    [2] => Array        (            [0] => 03            [1] => 海森            [2] => 13            [3] => 上海东亚        )    [3] => Array        (            [0] => 04            [1] => 达维            [2] => 9            [3] => 广州富力        )    [4] => Array        (            [0] => 04            [1] => 多利            [2] => 9            [3] => 哈尔滨毅腾        )    [5] => Array        (            [0] => 04            [1] => 洛维            [2] => 9            [3] => 山东鲁能        )    [6] => Array        (            [0] => 04            [1] => 拉蒙            [2] => 9            [3] => 杭州绿城        )    [7] => Array        (            [0] => 08            [1] => 德扬            [2] => 8            [3] => 北京国安        )    [8] => Array        (            [0] => 09            [1] => 巴塔拉            [2] => 7            [3] => 北京国安        )    [9] => Array        (            [0] => 09            [1] => 布鲁诺            [2] => 7            [3] => 大连阿尔滨        )    [10] => Array        (            [0] => 09            [1] => 里卡多            [2] => 7            [3] => 哈尔滨毅腾        )    [11] => Array        (            [0] => 09            [1] => 武磊            [2] => 7            [3] => 上海东亚        )    [12] => Array        (            [0] => 09            [1] => 埃尼奥            [2] => 7            [3] => 长春亚泰        )    [13] => Array        (            [0] => 09            [1] => 尤里            [2] => 7            [3] => 贵州茅台        )    [14] => Array        (            [0] => 15            [1] => 莫雷诺            [2] => 6            [3] => 上海绿地        )    [15] => Array        (            [0] => 15            [1] => 雷内            [2] => 6            [3] => 广州恒大        ))

内容总结

以上是互联网集市为您收集整理的php文章内容抓取全部内容，希望文章能够帮你解决php文章内容抓取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/199852.html

来源：【匿名】

【上一篇】php中对MYSQL操作之事务控制，回滚【下一篇】PHP 5 数据对象 (PDO) 抽象层与 Oracle

更多 ►

【php文章内容抓取】教程文章相关的互联网学习教程文章

PHP获取cookie、Token、模拟登录、抓取数据、解析生成json【代码】

本文介绍使用PHP获取cookie，获取Token、以及模拟登录、然后抓取数据、最后解析生成json的的过程。 0. 设置Cookie路径set_time_limit(0);//使用的cookie路径，if (isset($_SERVER[‘HTTP_APPNAME‘])){$cookie = SAE_TMP_PATH."/cookie.txt"; }else {$cookie = dirname(__FILE__)."/cookie.txt"; } 1、打开页面，获取COOKIEJAR，以及 token，并保存$url = "http://www.fangbei.org/#agent/login"; $headers = array( "User-Agent: ...

php抓取https的内容的代码

直接用file_get_contents，会报错；复制代码代码如下:$url = (https://xxx.com"); file_get_contents($url); 错误： Warning: file_get_contents(https://xxx.com) [function.file-get-contents]: failed to open stream: No such file or directory in D:wampwwwgrabber_clientindex.php on line 3 用curl的方式是可以的：复制代码代码如下:$url = (https://xxx.com); $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url)...

PHP - 抓取电视剧资源【代码】

<?php /*** 获取下载url* @return [type] [description]*/ function getVedioDwonloadUrl() {for ($i=1; $i <= 48; $i++) {$url = ‘http://www.btdog.com/play/34821-1-‘ . $i . ‘.html‘;$urlContent[] = patternHtml( getUrlContent( $url ) );}return $urlContent; }/*** 匹配内容* @param [type] $content [description]* @return [type] [description]*/ function patternHtml( $content ) {//Analytical conten...

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

本文实例讲述了PHP中使用file_get_contents抓取网页中文乱码问题解决方法。分享给大家供大家参考。具体方法如下：file_get_contents函数本来就是一个非常优秀的php自带本地与远程文件操作函数,它可以让我们不花吹挥之力把远程数据直接下载,但我在使用它读取网页时会碰到有些页面是乱码了,这里就来给各位总结具体的解决办法.根据网上有朋友介绍说原因可能是服务器开了GZIP压缩,下面是用firebug查看我的网站的头信息,Gzip是开了的,请...

CURL PHP实现多线程抓取网页【代码】【图】

PHP 利用 Curl Functions 可以完成各种传送文件操作，比如模拟浏览器发送GET，POST请求等等，受限于php语言本身不支持多线程，所以开发爬虫程序效率并不高，这时候往往需要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大，能否用 Curl Multi Functions 来写并发多线程下载文件呢，当然可以，下面给出我的代码：<?php $urls = array( ‘http://www.sina.com.cn/‘, ‘ht...

PHP 抓取远程文件出错的解决方案

file_get_contents在某些情况下会出错。这样在运行中会时不时的出现上述错误，我也换过file_get_contents等其他函数都没用，在网上查阅后发现用CURL方法抓取不会出错$url = "http://www.php100.com/logo.gif";$ch = curl_init();curl_setopt ($ch, CURLOPT_URL, $url);curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);$img = curl_exec($ch); 原文：http://www.cnblogs.com/prolovec...

PHP爬虫抓取网页内容 (simple_html_dom.php)【代码】【图】

使用simple_html_dom.php，下载|文档　　因为抓取的只是一个网页，所以比较简单，整个网站的下次再研究，可能用Python来做爬虫会好些。 1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/>2 <?php3include_once ‘simplehtmldom/simple_html_dom.php‘;4//获取html数据转化为对象 5$html = file_get_html(‘http://paopaotv.com/tv-type-id-5-pg-1.html‘);6//A-Z的字母列表每条数据是在id=letter-focus 的di...

PHP爬虫抓取【代码】【图】

目标：利用PHP解决网站列表内容抓取描述：在群里看到小伙伴问到关于抓取网站列表内容，我就想起了当时工作关于文章采集的问题，但是后面想想又不对，这是列表抓取，于是就想起了大神们经常说的说的“爬虫”，我想一定可以解决小伙伴的问题，因为是php小白，所以在网上找了很多爬虫的写法，但是太长了不想看，受个别启发看到了fopen()方法，那么这个方法是干嘛的，查找得出“把指定文件或者url资源绑定到资源流上”，额好像不错，就...

PHP 抓取网页图片并且另存为的实现代码

下面是源代码，及其相关解释复制代码代码如下:<?php //URL是远程的完整图片地址，不能为空, $filename 是另存为的图片名字 //默认把图片放在以此脚本相同的目录里 function GrabImage($url, $filename=""){ //$url 为空则返回 false; if($url == ""){return false;} $ext = strrchr($url, ".");//得到图片的扩展名 if($ext != ".gif" && $ext != ".jpg" && $ext != ".bmp"){echo "格式不支持！";return false;} if($filename == ...

PHP CURL抓取网页 simple_html_dom类【代码】

抓取网页数据后数据录入到discuz中<?php include(‘simple_html_dom.php‘);function urlText(){$url = ‘http://www.kxt.com/data/3.html‘;//外汇$ch=curl_init();$timeout = 1;// echo CURLOPT_URL; // CURLOPT_URL: 这是你想用PHP取回的URL地址。你也可以在用curl_init()函数初始化时设置这个选项curl_setopt($ch, CURLOPT_URL, $url);// echo CURLOPT_RETURNTRANSFER; //使用PHP curl获取页面内容或提交数据，有时候希望返回...

php 抓取图片【代码】

<?php /*** Created by PhpStorm.* Date: 15-2-9* Time: 下午3:10*/for($i=0;$i<1000;$i++){$getData[‘page‘] = $i+1;getImg($getData); }function getImg($getData) {$path = "D:/NFS/img/";$opts = array(‘http‘=>array(‘method‘=>"GET",‘timeout‘=>3,//设置3秒等待),);if(is_array($getData) && !empty($getData)){$ser = http_build_query($getData, ‘‘, ‘&‘);}$cnt=0;//如果请求失败继续请求3次while($cnt<3 &&...

PHP抓取网页图片的实例【代码】

PHP抓取网页图片的实例<?php /** * 抓取网站上的图片到本地 * PS: 如果网页中的图片路径不是绝对路径，就无法抓取 */ set_time_limit(0);//抓取不受时间限制 $URL=‘http://image.baidu.com/‘;//任意网址 get_pic($URL); function get_pic($pic_url) { //获取图片二进制流 $data=CurlGet($pic_url); /*利用正则表达式得到图片链接*/ $pattern_src = ‘/<[img|IMG].*?src=[\‘|\"](...

网页抓取信息（php正则表达式、php操作excel）【图】

1.问题描述实现对固定网页上自己需要的信息抓取，以表格形式存储。我是拿wustoj上的一个排行榜来练习的，地址：wustoj2.思路网页自己就简单学习了一下php，刚好用它来做点事情吧，我的想法是这样的：（1）查看网页源代码并保存在文件中。（2）根据需要的信息写出正则表达式，读文件，根据正则表达式来提取需要的信息。写正则表达式的时候最好分组，这样提取起来就方便了很多。（3）对excel操作，将提取的信息以excel的形式输出。比...

php 抓取天气情况 www.weather.com.cn

<?phpfunction getweather($city){$url="http://www.weather.com.cn/weather1d/".$city.".shtml";$result=file_get_contents($url);$arr=explode("<li class='dn on' data-dn='todayT'>",$result);$arr1=explode("<div class=\"m m2\" id=\"2_3d\">",$arr[1]);$wt= mb_convert_encoding($arr1[0],"GBK","UTF-8");$wt1=explode("</i> </p>",$wt);$first=explode("</h1>",$wt1[0]);$w1_1=$first[0];//echo strip_tags($w1_1);//当前状...

php抓取文章内容分析【代码】

preg_match_all — 执行一个全局正则表达式匹配int preg_match_all ( string pattern, string subject, array matches [, int flags] )在 subject 中搜索所有与 pattern 给出的正则表达式匹配的内容并将结果以 flags 指定的顺序放到 matches 中。搜索到第一个匹配项之后，接下来的搜索从上一个匹配项末尾开始。flags 可以是下列标记的组合（注意把 PREG_PATTERN_ORDER 和 PREG_SET_ORDER 合起来用没有意义）：PREG_PATTERN_ORDER对...

PHP - 技术教程分类

PHP 教程 PHP 简介 PHP 安装 PHP 语法 PHP 变量 PHP echo/print PHP EOF(heredoc) PHP 数据类型 PHP 类型比较 PHP 常量 PHP 字符串 PHP 运算符 PHP If...Else PHP Switch PHP 数组 PHP 数组排序 PHP 超级全局变量 PHP While 循环 PHP For 循环 PHP 函数 PHP 魔术常量 PHP 命名空间 PHP 面向对象 PHP 测验 PHP 表单 PHP 表单验证 PHP 表单 - 必需字段 PHP 完整表单实例 PHP $_GET 变量 PHP $_POST 变量 PHP 多维数组 PHP 日期 PHP 包含 PHP 文件 PHP 文件上传 PHP Cookie PHP Session PHP E-mail PHP Error PHP Exception PHP 过滤器 PHP 7 新特性 PHP MySQL 简介 PHP MySQL 连接 PHP MySQL 创建数据库 PHP MySQL 创建数据表 PHP MySQL 插入数据 PHP MySQL 插入多条数据 PHP MySQL 预处理语句 PHP MySQL 读取数据 PHP MySQL Where PHP MySQL Order By PHP MySQL Update PHP MySQL Delete PHP ODBC AJAX 简介 AJAX PHP AJAX 数据库 AJAX 实时搜索 AJAX 投票 PHP Array PHP Calendar PHP cURL PHP Date PHP Directory PHP Error PHP Filesystem PHP Filter PHP FTP PHP HTTP PHP Mail PHP Math PHP Misc PHP MySQLi PHP PDO PHP String PHP Zip PHP Timezones PHP 图像处理 PHP RESTful PHP PCRE PHP 可用的函数 PHP Composer php 全部

PHP - 最热教程

php如何取出数组的前几个元素 PHP变量什么时候释放 PHP如何实现在数据库随机获取几条记录如何解决php base64解码乱码 php主要用于哪些领域 Laravel 批量插入(insert)数据六款国内优秀免费wordpress主题推荐 React如何从后端获取数据并渲染到前端？纯PHP实现定时器任务（Timer），php实现...php该如何安装pdo_mysql扩展

首页 / PHP / php文章内容抓取

php文章内容抓取

内容导读

内容图文

回复讨论(解决方案)

内容总结

内容备注

内容手机端

【php文章内容抓取】教程文章相关的互联网学习教程文章

PHP获取cookie、Token、模拟登录、抓取数据、解析生成json【代码】

php抓取https的内容的代码

PHP - 抓取电视剧资源【代码】

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

CURL PHP实现多线程抓取网页【代码】【图】

PHP 抓取远程文件出错的解决方案

PHP爬虫抓取网页内容 (simple_html_dom.php)【代码】【图】

PHP爬虫抓取【代码】【图】

PHP 抓取网页图片并且另存为的实现代码

PHP CURL抓取网页 simple_html_dom类【代码】

php 抓取图片【代码】

PHP抓取网页图片的实例【代码】

网页抓取信息（php正则表达式、php操作excel）【图】

php 抓取天气情况 www.weather.com.cn

php抓取文章内容分析【代码】

PHP - 相关标签

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程