首页 / PHP / 利用PHP抓取百度阅读的方法示例

利用PHP抓取百度阅读的方法示例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用PHP抓取百度阅读的方法示例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2946字，纯文字阅读大概需要5分钟。

内容图文

前言

这篇文章主要介绍的是，如何利用PHP抓取百度阅读的方法，下面话不多说，来一起看看吧。

抓取方法如下

首先在浏览器里打开阅读页面，查看源代码后发现小说的内容并不是直接写在页面里的，也就是说小说的内容是通过异步加载而来的。

于是将chrome的开发者工具切到network一栏，刷新阅读页面，主要关注的是XHR和script两个分类下。

经过排查，发现在script分类下有个jsonp请求比较像是小说内容，请求的地址是
http://www.gxlcms.com/
返回的是一个

jsonp

字符串，然后我发现，如果把地址里面的

callback=wenku7

去掉，返回的就是一个

json

字符串，这样解析起来就方便不少，可以直接在php里面转换成数组。

再来分析一下返回数据的结构，返回的

json

字符串之后是一个树状的结构，每个节点都有一个t属性和c属性，t属性用来指明这个节点的标签，比如h2 p等等，c属性就是内容了，但也有两种可能，一个是字符串，另一个是数组，数组的每个元素都是一个节点。

这种结构最好解析了，用一个递归就搞定

最终代码如下：

<?php
class BaiduYuedu {
 protected $bookId;
 protected $bookToken;
 protected $cookie;
 protected $result;
 public function __construct($bookId, $bookToken, $cookie){
  $this->bookId = $bookId;
  $this->bookToken = $bookToken;
  $this->cookie = $cookie;
 }
 public static function parseNode($node){
  $str = '';
  if(is_string($node['c'])){
   $str .= $node['c'];
  }else if(is_array($node['c'])){
   foreach($node['c'] as $d){
    $str .= self::parseNode($d);
   }
  }
  switch($node['t']){
   case 'h2':
    $str .= "\n\n";
    break;
   case 'br':
   case 'p':
   case 'p':
    $str .= "\n";
    break;
   case 'img':
   case 'span':
    break;
   case 'obj':
    $tmp = '(' . self::parseNode($node['data'][0]) . ')';
    $str .= str_replace("\n", '', $tmp);
    break;
   default:
    trigger_error('Unkown type:'.$node['t'], E_USER_WARNING);
    break;
  }
  return $str;
 }
 public function get($page = 1){
  echo "getting page {$page}...\n";
  $ch = curl_init();
  $url = sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d', $this->bookId, $this->token, $page);
  curl_setopt_array($ch, array(
   CURLOPT_URL   => $url,
   CURLOPT_RETURNTRANSFER => 1,
   CURLOPT_HEADER   => 0,
   CURLOPT_HTTPHEADER  => array('Cookie: '. $this->cookie)
  ));
  $ret = json_decode(curl_exec($ch), true);
  curl_close($ch);
  $str = '';
  if(!empty($ret)){
   $str .= self::parseNode($ret);
   $str .= $this->get($page + 1);
  }
  return $str;
 }
 public function start(){
  $this->result = $this->get();
 }
 public function getResult(){
  return $this->result;
 }
 public function saveTo($path){
  if(empty($this->result)){
   trigger_error('Result is empty', E_USER_ERROR);
   return;
  }
  file_put_contents($path, $this->result);
  echo "save to {$path}\n";
 }
}
//使用示例
$yuedu = new BaiduYuedu('49422a3769eae009581becba', '8ed1dedb240b11bf0731336eff95093f', '你的百度域cookie');
$yuedu->start();
$yuedu->saveTo('result.txt');

这个类前两个参数可以从小说的介绍页面获得，第一个参数

bookId

就是

url

里

ebook

后面跟着的字符串，第二个参数

bookToken

在页面源代码搜索

bdjsonUrl

，

参数后面的那个字符串就是。

注：如果不传入百度

cookie

或者百度

cookie

无效，则只能抓取免费阅读部分，要抓完整的内容必须保证

cookie

可以正常使用。

总结

以上就是利用PHP抓取百度阅读的方法示例的内容，更多相关内容请关注PHP中文网（www.gxlcms.com）！

内容总结

以上是互联网集市为您收集整理的利用PHP抓取百度阅读的方法示例全部内容，希望文章能够帮你解决利用PHP抓取百度阅读的方法示例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/146875.html

来源：【匿名】

【上一篇】PHP安全-文件上传攻击【下一篇】PHP 5 数据对象 (PDO) 抽象层与 Oracle

更多 ►

【利用PHP抓取百度阅读的方法示例】教程文章相关的互联网学习教程文章

PHP生成静态HTML页面最简单方法示例

PHP文件名：dome.php复制代码代码如下: <?php $string = 1; ob_start(); @readfile("templets/list.html"); $text = ob_get_flush(); $myfile = fopen("list.html","w"); $text = str_replace ("{counent}",$string,$text); fwrite($myfile,$text); ob_clean(); ?> 模板文件名：templets/list.html复制代码代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http...

php之Smarty模板使用方法示例详解【代码】

本文详细剖析了smarty模板的使用方法，对于学习smarty的朋友有一定的参考价值。详情如下：一、模板中的注释每一个Smarty模板文件，都是通过Web前台语言(xhtml,css和javascript等)结合Smarty引擎的语法开发的。用到的web前台开发的语言和原来的完全一样，注释也没有变化。 Smarty注释语法是‘左结束符变量值*‘和‘*右结束符变量值‘，在这两个定界符之间的内容都是注释内容，可以包含一行或多行，并且用户浏览网页查看原代码时不会...

Yii 2.0如何使用页面缓存方法示例

前言本文主要给大家介绍的是关于Yii2.0如何使用页面缓存的相关内容，分享出来供大家参考学习，下面来一起看看详细的介绍。起初使用页面缓存，发现使用于含有参数的方法存在弊端，只能缓存第一次的页面，导致后面所有不同参数的页面均显示第一次缓存页面；没有生成一个参数页面一个缓存；于是，进行了重写页面缓存。示例代码 <?php namespace common\lib;use Yii; use yii\caching\Cache; use yii\di\Instance; use yii\web\Resp...

利用php操作memcache缓存的基础方法示例

前言最近在工作中又遇到了memcache，大家应该都有所了解，memcache 是一个高效的分布式的内存对象缓存系统，他可以支持把php的各种数据（数组，对象，基本数据类型）放在它管理的内存中，本文将给大家详细介绍关于php操作memcache缓存的基础方法，话不多说，来一起看看详细的介绍吧。1、代码使用 <?php //连接 $mem = new Memcache; $mem->connect("127.0.0.1", 11211) or die ("Could not connect"); //显示版本 $version = $mem...

php实现的redis缓存类定义与使用方法示例

本文实例讲述了php实现的redis缓存类定义与使用方法。分享给大家供大家参考，具体如下： php+redis缓存类 <?php class redisCache {/*** $host : redis服务器ip* $port : redis服务器端口* $lifetime : 缓存文件有效期,单位为秒* $cacheid : 缓存文件路径,包含文件名*/private $host;private $port;private $lifetime;private $cacheid;private $data;public $redis;/*** 析构函数,检查缓存目录是否有效,默认赋值*/function __cons...

使用PHP访问RabbitMQ消息队列的方法示例

本文实例讲述了使用PHP访问RabbitMQ消息队列的方法。分享给大家供大家参考，具体如下：扩展安装 PHP访问RabbitMQ实际使用的是AMQP协议，所以我们只要安装epel库中的php-pecl-amqp这个包即可 rpm -ivh http://mirror.neu.edu.cn/fedora/epel/6/x86_64/epel-release-6-8.noarch.rpm yum install php-pecl-amqp交换建立 <?php $connection = new AMQPConnection(); $connection->connect(); $channel = new AMQPChannel($connection)...

Laravel使用RabbitMQ的方法示例

导语RabbitMQ 想必大家都有了解，不做多介绍来。这里实现的是用 RabbitMQ 作为 Larvel 队列的驱动，替代 Redis。下面以 Laradock 中安装示例。安装切换到 laradock 目录，将 .env 中关于 INSTALL_AMQP 的值修改为 truedocker-compose stop workspace php-fpm php-workerdocker-compose build workspace php-fpm php-worker rabbitmqdocker-compose up -d workspace php-fpm php-worker rabbitmq扩展包安装以及配置进入到 workspa...

php简单检测404页面的方法示例【图】

本文实例讲述了php简单检测404页面的方法。分享给大家供大家参考，具体如下：需求描述：检测给定的url是否是404页面。方式一：使用file_get_contents函数，可以读取web中的网页或者文件。如果遇到404页面，则会返回false，否则返回相应的网页内容。使用该函数有两点需要注意： 1.file_get_contents在读取不存在的页面时，会报一个warning，所以最好对这里的警告进行屏蔽操作。 2.file_get_contents默认会读取页面的所有内容，...

PHP遍历某文件夹下全部文件方法示例【图】

不论是面试还是正常工作需要都会用到遍历文件夹下的所有文件，和大家分享一下用PHP实现的遍历某文件夹下全部文件方法示例，以供大家学习参考。<?php/** * 遍历当前文件夹展示所有的文件和目录 */function dirList($dir_path = ) {if(is_dir($dir_path)) {$dirs = opendir($dir_path);if($dirs) {while(($file = readdir($dirs)) !== false) {if($file !== . && $file !== ..) {if(is_dir($file)) {echo $dir_path . / . $file . <b...

tp5.0中上传多图文件名重复的解决方法（示例讲解）【图】

本篇文章给大家带来的内容是关于tp5.0中上传多图文件名重复的解决方法（示例讲解），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。最近在做项目的时候出现了一个问题，这里记录一下：问题：使用TP5.0框架自带的文件上传方法后，发现多图上传可能会出现文件名重复的问题。问题代码：找到TP5框架上传文件命名方法，/thinkphp/library/think/File.php文件，buildSaveName方法（第394行）；case date:$savename = d...

php访问url的两种方法示例（get和post代码）

本篇文章给大家带来的内容是关于php访问url的两种方法示例（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。get请求/** php访问url路径，get请求*/function curl_file_get_contents($durl){// header传送格式$headers = array("token:1111111111111","over_time:22222222222",);// 初始化$curl = curl_init();// 设置url路径curl_setopt($curl, CURLOPT_URL, $durl);// 将 curl_exec()获取的信息以文件流...

PHP递归实现快速排序的方法示例讲解

这篇文章主要介绍了PHP递归实现快速排序的方法,简单描述了快速排序的原理并结合实例形式分析了php使用递归算法实现快速排序的相关操作技巧,需要的朋友可以参考下本文实例讲述了PHP递归实现快速排序的方法。分享给大家供大家参考，具体如下：首先我们要理解一下快速排序的原理：找到当前数组中的任意一个元素（一般选择第一个元素），作为标准，新建两个空数组，遍历整个数组元素，如果遍历到的元素比当前的元素要小，那么就放到左边...

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例讲解

这篇文章主要介绍了PHPCrawl爬虫库实现抓取酷狗歌单的方法,涉及PHPCrawl爬虫库的使用及正则匹配相关操作技巧,需要的朋友可以参考下本文实例讲述了PHPCrawl爬虫库实现抓取酷狗歌单的方法。分享给大家供大家参考，具体如下：本人看了网络爬虫相关的视频后，手痒痒，想爬点什么。最近Facebook上表情包大战很激烈，就想着把所有表情包都爬下来，却一时没有找到合适的VPN，因此把酷狗最近一月精选歌曲和简单介绍抓取到本地。代码写得有点...

PHP实现生成模糊图片的方法示例讲解【图】

这篇文章主要介绍了PHP实现生成模糊图片的方法,涉及php高斯算法实现图片模糊功能相关实现技巧,需要的朋友可以参考下本文实例讲述了PHP实现生成模糊图片的方法。分享给大家供大家参考，具体如下：<?php class image_blur{ /*** 图片高斯模糊（适用于png/jpg/gif格式）* @param $srcImg 原图片* @param $savepath 保存路径* @param $savename 保存名字* @param $positon 模糊程度**基于Martijn Frazer代码的扩充，感谢 Martijn Fraz...

PHP利用一行代码删除目录下所有文件方法示例讲解

这篇文章主要给大家介绍了关于PHP如何利用一行代码删除目录下所有文件的相关资料，文中先对glob函数进行了一个简单的介绍，而后通过示例代码将删除的方法介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。前言想必很多人都会写几行甚至几十行代码使其列出所有文件变为数组进行删除，但是glob函数分分钟解决问题！下面来一起看看详细的介绍吧。glob语法说明：array glob ( string $pattern [, int $flags = 0 ] )glob() ...

PHP - 技术教程分类

PHP 教程 PHP 简介 PHP 安装 PHP 语法 PHP 变量 PHP echo/print PHP EOF(heredoc) PHP 数据类型 PHP 类型比较 PHP 常量 PHP 字符串 PHP 运算符 PHP If...Else PHP Switch PHP 数组 PHP 数组排序 PHP 超级全局变量 PHP While 循环 PHP For 循环 PHP 函数 PHP 魔术常量 PHP 命名空间 PHP 面向对象 PHP 测验 PHP 表单 PHP 表单验证 PHP 表单 - 必需字段 PHP 完整表单实例 PHP $_GET 变量 PHP $_POST 变量 PHP 多维数组 PHP 日期 PHP 包含 PHP 文件 PHP 文件上传 PHP Cookie PHP Session PHP E-mail PHP Error PHP Exception PHP 过滤器 PHP 7 新特性 PHP MySQL 简介 PHP MySQL 连接 PHP MySQL 创建数据库 PHP MySQL 创建数据表 PHP MySQL 插入数据 PHP MySQL 插入多条数据 PHP MySQL 预处理语句 PHP MySQL 读取数据 PHP MySQL Where PHP MySQL Order By PHP MySQL Update PHP MySQL Delete PHP ODBC AJAX 简介 AJAX PHP AJAX 数据库 AJAX 实时搜索 AJAX 投票 PHP Array PHP Calendar PHP cURL PHP Date PHP Directory PHP Error PHP Filesystem PHP Filter PHP FTP PHP HTTP PHP Mail PHP Math PHP Misc PHP MySQLi PHP PDO PHP String PHP Zip PHP Timezones PHP 图像处理 PHP RESTful PHP PCRE PHP 可用的函数 PHP Composer php 全部

PHP - 最热教程

php如何取出数组的前几个元素 PHP变量什么时候释放 PHP如何实现在数据库随机获取几条记录如何解决php base64解码乱码 php主要用于哪些领域 Laravel 批量插入(insert)数据六款国内优秀免费wordpress主题推荐 React如何从后端获取数据并渲染到前端？纯PHP实现定时器任务（Timer），php实现...php该如何安装pdo_mysql扩展

首页 / PHP / 利用PHP抓取百度阅读的方法示例

利用PHP抓取百度阅读的方法示例

内容导读

内容图文

内容总结

内容备注

内容手机端

【利用PHP抓取百度阅读的方法示例】教程文章相关的互联网学习教程文章

PHP生成静态HTML页面最简单方法示例

php之Smarty模板使用方法示例详解【代码】

Yii 2.0如何使用页面缓存方法示例

利用php操作memcache缓存的基础方法示例

php实现的redis缓存类定义与使用方法示例

使用PHP访问RabbitMQ消息队列的方法示例

Laravel使用RabbitMQ的方法示例

php简单检测404页面的方法示例【图】

PHP遍历某文件夹下全部文件方法示例【图】

tp5.0中上传多图文件名重复的解决方法（示例讲解）【图】

php访问url的两种方法示例（get和post代码）

PHP递归实现快速排序的方法示例讲解

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例讲解

PHP实现生成模糊图片的方法示例讲解【图】

PHP利用一行代码删除目录下所有文件方法示例讲解

PHP - 相关标签

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程