首页 / NODEJS / node.js实现博客小爬虫的实例代码

node.js实现博客小爬虫的实例代码

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了node.js实现博客小爬虫的实例代码，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2249字，纯文字阅读大概需要4分钟。

内容图文

前言

爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

这篇文章介绍的是利用node.js实现博客小爬虫，核心的注释我都标注好了，可以自行理解，只需修改url和按照要趴的博客内部dom构造改一下filterchapters和filterchapters1就行了！

下面话不多说，直接来看实例代码

var http=require('http');
var Promise=require('Bluebird');
var cheerio = require('cheerio');
var url='http://www.immaster.cn';//博客地址
function filterchapters1(html) {//解析文章链接
 var $ =cheerio.load(html);
 var post=$('.post');
 
 var content=[];
 post.each(function (item) {
 
 var postid=$(this).find('.tit').find('a').attr('href');
 
 content.push(postid);
 })
 return content;
}
function filterchapters(html) {//解析每个文章内的内容
 var $ =cheerio.load(html);
 var tit=$('.post .tit').find('a').text();
 var postid=$('.tit').find('a').attr('href');
 var commentnum=$('.comments-title').text();
 commentnum=commentnum.trim();
 // commentnum=commentnum.replace('\n','');
 var content={tit:tit,url:postid,commentnum:commentnum};
 return content;
}
function getid(url){//爬取首页文章链接
 return new Promise(function (resolve,reject) {
 http.get(url,function (res) {
 var html = '';
 res.on('data',function(data) {
 html+=data;
 });
 res.on('end',function () {
 var content=filterchapters1(html)
 resolve(content);
 
 })
}).on('error',function () {
 reject(e);
 console.log('抓取出错！')
 })
})
}
function getpageAsync(url) {//爬取单个页面内容
 return new Promise(function (resolve,reject) {
 console.log('正在爬取……'+url)
 http.get(url,function (res) {
 var html = '';
 res.on('data',function(data) {
 html+=data;
 });
 res.on('end',function () {
 resolve(html);
 
 })
 }).on('error',function () {
 reject(e);
 console.log('抓取出错！')
 })
 })
}
getid(url)
 .then(function(postid){
 return new Promise(function (resolve,reject) {
 var pageurls=[];
 postid.forEach(function (id) {
 pageurls.push(getpageAsync(id));
 })
 resolve(pageurls);
 })
 })
 .then(function(pageurls){
 return new Promise.all(pageurls);//让promise对象同时开始运行
 })
 .then(function (pages) {
 var coursesData=[];
 pages.forEach(function (html) {
 var courses=filterchapters(html);
 coursesData.push(courses);
 })
coursesData.forEach(function(v){
 console.log('标题：'+v.tit+"\n地址："+v.url+"\n评论："+v.commentnum)
 })
 })

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用node.js实现爬虫能有所帮助，如果有疑问大家可以留言交流。

内容总结

以上是互联网集市为您收集整理的node.js实现博客小爬虫的实例代码全部内容，希望文章能够帮你解决node.js实现博客小爬虫的实例代码所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/349242.html

来源：【匿名】

【上一篇】Node.js与MySQL交互操作及其注意事项【下一篇】node.js和php的区别有哪些？

更多 ►

【node.js实现博客小爬虫的实例代码】教程文章相关的互联网学习教程文章

nodeJS实现路由功能实例代码【图】

前面的话本文将使用NodeJS实现较复杂应用的路由功能结构项目结构如下代码如下功能【router.js】 // 加载所需模块 var http = require(http); var url = require(url); var fs = require(fs);var host = 127.0.0.1; var port = 8080;http.createServer(function(req,res){var pathname = url.parse(req.url).pathname;console.log(Request for + pathname + received.);function showPaper(path,status){var content = fs.read...

Node.jsget，post提交数据实例代码

本文主要和大家分享Node.js getpost提交数据实例代码，希望能帮助到大家。demo.js：//引入http模块 var http=require(http); var url=require(url); var ejs=require(ejs); //ejs模块(第三方模块) 用于视图模板解析 var querystring = require(querystring); //querystring模块http.createServer(function(req,res){res.writeHead(200,{"Content-Type":"text/html;charset=utf-8"});//获取get 还是post请求var method=req.metho...

node.js如何使用querystring模块实例代码详解

querystring从字面上的意思就是查询字符串，一般是对http请求所带的数据进行解析。querystring模块只提供4个方法，这4个方法是相对应的。这4个方法分别是querystring.parse和querystring.stringify,querystring.escape和querystring.unescape。首先，使用querystring模块之前，需要require进来：其次，就可以使用模块下的方法了：一、querystring.parse(str,separator,eq,options)parse这个方法是将一个字符串反序列化为一个对象。...

分享一个nodejs终端打印进度条的实例代码【图】

本篇文章主要介绍了nodejs 终端打印进度条实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧1. 场景导入当我们对大量文件进行批量处理的时候(例如：上传/下载、保存、编译等)，常常希望知道当前进展如何，或者失败(成功)的任务有多少；当我们的代码或程序已经发布，用户在执行安装的过程中，一个合适的（终端/命令行）进度条可以准确反映安装的步骤和进程，提升程序的可用性，一定程度缓解用...

nodejs加密Crypto的实例代码

加密技术通常分为两大类：“对称式”和“非对称式”。对称式加密：就是加密和解密使用同一个密钥，通常称之为“Session Key ”这种加密技术在当今被广泛采用，如美国政府所采用的DES加密标准就是一种典型的“对称式”加密法，它的Session Key长度为56bits。非对称式加密：就是加密和解密所使用的不是同一个密钥，通常有两个密钥，称为“公钥”和“私钥”，它们两个必需配对使用，否则不能打开加密文件。加密为系统中经常使用的功能...

NodeJS的模块写法入门(实例代码)_javascript技巧

我们知道每个模块对应一个js文件，这篇写一个最简单的模块hello.js，然后在另一个js文件(main.js)中require自定义的模块。 hello.js 代码如下: function hello(name) { console.log(hello, + name); } exports.hello = hello; main.js 代码如下: var h = require(./hello); h.hello(snandy); 约定：hello.js和main.js在同一个目录下，比如是node目录打开命令行，进入node目录，执行命令代码如下: node main.js 可以看到命...

监控Nodejs的性能实例代码【图】

下面给大家介绍下监控Nodejs的性能，最近想监控一下Nodejs的性能。记录分析Log太麻烦，最简单的方式是记录每个HTTP请求的处理时间，直接在HTTP Response Header中返回。记录HTTP请求的时间很简单，就是收到请求记一个时间戳，响应请求的时候再记一个时间戳，两个时间戳之差就是处理时间。但是，res.send()代码遍布各个js文件，总不能把每个URL处理函数都改一遍吧。正确的思路是用middleware实现。但是Nodejs没有任何拦截res.se...

Node.js对MongoDB进行增删改查操作的实例代码

MongoDB简介 MongoDB是一个开源的、文档型的NoSQL数据库程序。MongoDB将数据存储在类似JSON的文档中，操作起来更灵活方便。NoSQL数据库中的文档(documents)对应于SQL数据库中的一行。将一组文档组合在一起称为集合(collections)，它大致相当于关系数据库中的表。除了作为一个NoSQL数据库，MongoDB还有一些自己的特性： ?易于安装和设置 ?使用BSON(类似于JSON的格式)来存储数据 ?将文档对象映射到应用程序代码很容易 ?具有高度可伸...

使用 Node.js 实现图片的动态裁切及算法实例代码详解

背景&概览目前常见的图床服务都会有图片动态裁切的功能，主要的应用场景用以为各种终端和业务形态输出合适尺寸的图片。一张动辄以 MB 为计量单位的原始大图，通常不会只设置一下显示尺寸就直接输出到终端中，因为体积太大加载体验会很差，除了影响加载速度还会增加终端设备的内存占用。所以要想在各种终端下都能保证图片质量的同时又确保输出合适的尺寸，那么此时就需要根据图片 URL 来对原始图片进行裁切，然后动态生成并输出一...

nodejs 生成和导出 word的实例代码

前段时间由于项目需求，得做excel和word的导出功能，excel的导出百度一下一大把，小伙伴们都写的好详细，基本打来改改就可以用，可导出word的功能，百度了貌似都找不到可用资料，哎，费解呀。后来找同事，同事们也没整过，看来还得自己上呀。。。第一次发现原来百度Google这强大，同事推荐的 http://www.baigoogledu.com/ 百度Google一起摆 nodejs word 找到https://github.com/Ziv-Barber/officegen 看到这里您老是不就瞬间明...

Nodejs+express+ejs简单使用实例代码

前几天主要看了express，今天开始接触ejs，jade还是不想看了，O(∩_∩)O哈哈~ var express = require("express"); var ejs = require(ejs); //var fs = require("fs"); //var bodyParser = require(body-parser);var app = express();app.engine(html, ejs.renderFile);app.set("view engine", "html"); app.use(function(req, res, next) {res.locals.userinfo = {userid : 123,username : "ladeng"};next(); });app.get("/", fun...

使用node.js对音视频文件加密的实例代码

废话不多说了，直接给大家贴代码了，具体代码如下所示：fs.readFile(./downsuccess/+name+, {flag: r+, encoding: }, function (err, data) {console.log(读取中)if(err) {return;}let b = new Buffer(data);let c = b.toString(hex);let cipherBuffer = _this.cipher(data);fs.writeFile(./downsuccess/+name+,cipherBuffer,[],function(){console.log(`${name}加密完成`);_this.downAll(_this.downList,_this.downCall)})}); exp...

基于nodejs+express4.X实现文件下载的实例代码【图】

之前写了一个关于基于nodejs+express4.X实现文件下载实例，最近需要回顾，就顺便发到随笔上了在nodejs的express框架中,下载变得非常简单,就一个方法,res.download()首先express命令行生成项目基本框架: 不会的看这里://www.gxlcms.com/article/118537.htm 看看api看看源码其实底层还是res.sendFile(),头部也已经设定好了.测试1.在public文件夹下放入1.jpg图片和1.txt文件2.在index.js里添加路由方法 router.get(/download, functi...

nodejs密码加密中生成随机数的实例代码

之前关于写了一个 nodejs密码加密中生成随机数，最近需要回顾，就顺便发到随笔上了方法一： Math.random().toString(36).substr(2)运行后的结果就是11位数的随机数方法二: 1、定义函数 function randomWord(randomFlag, min, max){var str = "",range = min,arr = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, ...

Express + Node.js实现登录拦截器的实例代码

介绍这边的拦截器，对应于spring MVC中的filter，所有的http请求，通过拦截器处理之后才能访问到对应的代码/资源。最典型的应用场景就是实现访问权限控制，给予不同的用户/用户组不同的页面和接口访问权限，仅能够访问允许的页面和接口。场景 app.post(/login, function(request, res, next){ // do something }); app.post(/getData,function(request, res, next){ // do somethingvar data="some data";res.send({"data":data...

首页 / NODEJS / node.js实现博客小爬虫的实例代码

node.js实现博客小爬虫的实例代码

内容导读

内容图文

内容总结

内容备注

内容手机端

【node.js实现博客小爬虫的实例代码】教程文章相关的互联网学习教程文章

爬虫 - 相关标签

实例 - 相关标签

NODEJS - 技术教程分类

NODEJS - 最新教程

NODEJS - 最热教程