nodejs的简单爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了nodejs的简单爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2219字，纯文字阅读大概需要4分钟。

内容图文

使用nodejs爬虫豆瓣电影数据，要爬取的页面地址：https://movie.douban.com/top250，简单实现如下：

‘use strict‘;

// 引入模块
var https = require(‘https‘);
var fs = require(‘fs‘);
var path = require(‘path‘);
var cheerio = require(‘cheerio‘);

// 爬虫的URL信息
var opt = {
    hostname: ‘movie.douban.com‘,
    path: ‘/top250‘,
    port: 443
};

// 创建http get请求
https.get(opt, function(res) {
    var html = ‘‘; // 保存抓取到的HTML源码
    var movies = [];  // 保存解析HTML后的数据，即我们需要的电影信息

    // 前面说过
    // res 是 Class: http.IncomingMessage 的一个实例
    // 而 http.IncomingMessage 实现了 stream.Readable 接口
    // 所以 http.IncomingMessage 也有 stream.Readable 的事件和方法
    // 比如 Event: ‘data‘, Event: ‘end‘, readable.setEncoding() 等

    // 设置编码
    res.setEncoding(‘utf-8‘);

    // 抓取页面内容
    res.on(‘data‘, function(chunk) {
        html += chunk;
    });

    res.on(‘end‘, function() {
        // 使用 cheerio 加载抓取到的HTML代码
        // 然后就可以使用 jQuery 的方法了
        // 比如获取某个class：$(‘.className‘)
        // 这样就能获取所有这个class包含的内容
        var $ = cheerio.load(html);

        // 解析页面
        // 每个电影都在 item class 中
        $(‘.item‘).each(function() {
            // 获取图片链接
            var movie = {
                title: $(‘.title‘, this).text(), // 获取电影名称
                star: $(‘.info .star em‘, this).text(), // 获取电影评分
                link: $(‘a‘, this).attr(‘href‘), // 获取电影详情页链接
                picUrl: $(‘.pic img‘, this).attr(‘src‘) // 获取电影图片链接
            };

            // 把所有电影放在一个数组里面
            movies.push(movie);
            // 下载图片
            downloadImg(‘img/‘, movie.picUrl);
        });

        // 保存抓取到的电影数据
        saveData(‘data/data.json‘, movies);
    });
}).on(‘error‘, function(err) {
    console.log(err);
});


/**
 * 保存数据到本地
 *
 * @param {string} path 保存数据的文件
 * @param {array} movies 电影信息数组
 */
function saveData(path, movies) {
    // 调用 fs.writeFile 方法保存数据到本地
    fs.writeFile(path, JSON.stringify(movies, null, 4), function(err) {
        if (err) {
            return console.log(err);
        }
        console.log(‘Data saved‘);
    });
}

/**
 * 下载图片
 *
 * @param {string} imgDir 存放图片的文件夹
 * @param {string} url 图片的URL地址
 */
function downloadImg(imgDir, url) {
    https.get(url, function(res) {
        var data = ‘‘;

        res.setEncoding(‘binary‘);

        res.on(‘data‘, function(chunk) {
            data += chunk;
        });

        res.on(‘end‘, function() {
            // 调用 fs.writeFile 方法保存图片到本地
            fs.writeFile(imgDir + path.basename(url), data, ‘binary‘, function(err) {
                if (err) {
                    return console.log(err);
                }
                console.log(‘Image downloaded: ‘, path.basename(url));
            });
        });
    }).on(‘error‘, function(err) {
        console.log(err);
    });
}

原文：http://www.cnblogs.com/vipzhou/p/6416852.html

内容总结

以上是互联网集市为您收集整理的nodejs的简单爬虫全部内容，希望文章能够帮你解决nodejs的简单爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1217486.html

来源：【匿名】

【下一篇】node.js和php的区别有哪些？

更多 ►

【nodejs的简单爬虫】教程文章相关的互联网学习教程文章

使用nodejs爬虫豆瓣电影数据，要爬取的页面地址：https://movie.douban.com/top250，简单实现如下：‘use strict‘;// 引入模块 var https = require(‘https‘); var fs = require(‘fs‘); var path = require(‘path‘); var cheerio = require(‘cheerio‘);// 爬虫的URL信息 var opt = {hostname: ‘movie.douban.com‘,path: ‘/top250‘,port: 443 };// 创建http get请求 https.get(opt, function(res) {var html = ‘‘; /...

windows下nodejs环境配置【代码】【图】

一、下载去nodejs下载node.msi安装文件包，里面包含了node.js和npm；双击node.msi就行了，选择安装路径和npm；二、设置环境变量[新版本都不需要设计环境变量了，软件会自动写入环境变量]计算机（或者我的电脑）右击属性-》高级系统设置-》环境变量。新建一个用户变量。变量名：NODE_PATH值：C:\Program Files\nodejs\node_modules注意：值为nodejs安装目录三、测试1、写测试代码test.js随便找个项目文件夹，再里面新建一个servic...

NODEJS的误打误撞【图】

我接触nodejs 纯属是误打误撞，之前在做一个房地产项目的时候，客户提出了一个需求，我大概整理一些“我们需要员工只能在公司登陆房管系统并进行操作，回家是不允许进行登录的”，其实对于房产中介来说源数据很珍贵也很稀缺，各个中介都在想尽办法去找一些会搞爬虫的，想赚钱的程序猿去各个竞品官网去爬一些数据，记得很疯狂的我也搞过，数据是按条卖的这类专供数据的人还有一个响亮名称叫...一时半会想不起来了，算了我可能也是老...

nodejs中的异步流程序控制nsync

异步编程是指由于异步I/O等因素，无法同步获得执行结果时，在回调函数中进行下一步操作的代码编写风格,常见的如setTimeout函数、ajax请求等等http://cnodejs.org/topic/54acfbb5ce87bace2444cbfb并不是node中的，但是我们开发中经常使用使用npm init初始化项目安装cnpm install async --devhttps://www.npmjs.com/package/asynchttp://caolan.github.io/async/创建一个文件async.js导入asyncvar async = require(‘async‘)console...

NodeJS + Socket.IO 最终版【代码】

服务器端 //socket.io var app = require("express")(); var http = require("http").Server(app); var io = require("socket.io")(http);//couchbase var couchbase = require("couchbase"); var cluster = new couchbase.Cluster("couchbase://ip"); var bucket = cluster.openBucket("name","pass");var onlineUsers = {}; var onlineCount = 0;io.on("connection" , function(socket){socket.on("login" , function(obj){socke...

nodejs 中koa框架下的微信公众号开发初始篇【代码】

最近在搞微信公众号开发，后端采用的是nodejs下的koa框架，初识后端的菜鸟，自己搞难度太大了，网上找了很多文章，采用的中间件大都是express框架下的，不过好在爬了许多坑之后总算看见点曙光了，遂把探索出来的一点东西拿出来分享，毕竟能力有限，拿出来也是希望大神看到了给点建议，主要用 koa-wechat 处理验证和消息解析，用wechat-api来进行按钮组等api操作，刚开始没什么内容，大家随意看看就好，废话不多说，直接上代码（这...

nodejs中npm常用命令

npm install <name>安装nodejs的依赖包例如npm install express 就会默认安装express的最新版本，也可以通过在后面加版本号的方式安装指定版本，如npm install express@3.0.6npm install <name> -g 将包安装到全局环境中但是代码中，直接通过require()的方式是没有办法调用全局安装的包的。全局的安装是供命令行使用的，就好像全局安装了vmarket后，就可以在命令行中直接运行vm命令npm install <name> --save 安装的同时，将信息写...

FreeSWITCH IVR中lua调用并执行nodejs代码

一、功能需求：　　通过FreeSWITCH的IVR按键调用相应的脚本文件；nodejs提供很多的模组，可以方便的与其它系统或者进行任何形式的通讯，我的应用是通过nodejs发送http post请求；　　由于不太熟悉FreeSWITCH直接调动执行nodejs文件的方法，所以我通过执行Lua脚本，在lua脚本中执行对nodejs文件的调用并执行，具体的设定记录如下：二、具体设定：　　①IVR设定：　　　　<entry action="menu-exec-app" digits="1" param="lua test...

Linux环境下安装NodeJS和mongoDB【代码】【图】

前面的话　　本文将详细介绍如何下Linux环境下安装NodeJS和mongoDB NodeJS　　1、在官网下载Linux环境下的NodeJS安装包　　2、通过xftp软件将安装包上传到服务器　　3、解压缩.tar.xz后缀的安装包$xz -d ***.tar.xz $tar -xvf ***.tar　　4、解压后，当前目录下出现node-v8.6.0-linux-x64目录，node被安装在目录中　　5、查找node-v8.6.0-linux-x64目录所在的当前目录，并以绝对路径设置软链接　　6、验证 MongoDB　　1、在官网下...

nodejs vinyl-fs 处理文件时输入问题【代码】【图】

使用 nodejs vinyl-fs 复制文件时输出路径不对，还是会有原来的相对路径，原因是用了反斜杠“\”，正斜杠“/”没问题测试过程node版本： v9.3.0系统：win10步骤：得到两个不同路径先测试路径p1，p1是反斜杠，将文件输出到test文件夹，结果是多了“bower_components\animate.css”这个相对路径下面是路径p2，p2是正斜杠，正常输出代码1var glob = require("glob") 2var path =require("path") 3var vfs = require(‘vinyl-fs‘) 45v...

nodejs的mysql初始化【代码】【图】

其实标题命名并不准确，本来想用nodejs来初始化数据库的，但是用nodejs写无非就是调用mysql然后通过query写sql语句来判断删除数据库，创建数据库，创建表，初始化数据等等。于是乎想来了解个新的创建方式，因为node的query已经会了。　　百度了一下，用sql文件进行初始化，调用时在数据库命令行中使用 “source 路径” 的指令，进行对相应路径的sql文件进行读取，了解了下，发现思路是一样，语言也省了nodejs的调用，直接sql语句就...

NodeJS安装、NPM依赖路径及NPM INSTALL ERROR 4048解决【代码】【图】

一、Node.js的下载安装这一步比较简单，打开官网Node.js (nodejs.org)，下载LTS版本，选择合适的安装目录安装即可。安装好后打开CMD命令行，查看安装是否成功。C:>Users>wangzhihuang>node -v v14.17.5 C:>Users>wangzhihuang>npm -v 6.14.14二、NPM依赖包下载路径设置为什么要设置？原因很简单，第一是为了更好管理我们的磁盘空间，第二是可以很方便找到依赖包的存放路径。在Node安装目录下新建两个文件夹，node_cache和node_glob...

vscode Nodejs 调试相关总结【图】

Launch和 attach的区别 Launch的话是直接以debug模式运行一个js文件，遇到debugger后会停止而Attach需要先开启一个运行在调试模式开启了debug端口的nodejs项目资料：https://code.visualstudio.com/docs/nodejs/nodejs-debugging Debugger是如何工作的：有系统调用叫ptrace，可以用一个进程去监视控制另一个进程的执，甚至让他暂停。获取另一个进程执行的调用栈.. 然后就可以构造出一个debugger。https://www.cnblogs.c...

在Ubuntu 16.04下安装nodejs【代码】【图】

源安装:1.curl -sL https://deb.nodesource.com/setup_5.x | sudo -E bash - 2.sudo apt-get install -y nodejs使用命令安装看到此图，安装成功！使用node -v 查看弄的js版本号原文：http://www.cnblogs.com/shione/p/7250179.html

nodejs调试【代码】【图】

调试技术与开发技术构成了软件开发的基石。目前Nodejs作为新型的Web Server开发栈倍受开发者关注。总的来说Nodejs的应用程序主要有两部分：JavaScript编写的js模块和C语言编译的二进制模块。这里主要介绍三种avaScript模块的调试方法：基于Nodejs内建的调试器，基于V8调试插件和基于Chrome浏览器的调试器。以下所有的操作都将基于如下代码（example.js）：var http = require(‘http‘);var url = require(‘url‘);http.createSer...

NODEJS - 技术教程分类

Node.js 教程 Node.js 安装配置 Node.js 创建第一个应用 NPM 使用介绍 Node.js REPL Node.js 回调函数 Node.js 事件循环 Node.js EventEmitter Node.js Buffer Node.js Stream Node.js 模块系统 Node.js 函数 Node.js 路由 Node.js 全局对象 Node.js 常用工具 Node.js 文件系统 Node.js GET/POST请求 Node.js 工具模块 Node.js Web 模块 Node.js Express 框架 Node.js RESTful API Node.js 多进程 Node.js MySQL Node.js MongoDB nodejs 全部

NODEJS - 最热教程

Node.js Error: Cannot find module ex...如何使用node.js实现获取微信用户授权（...node.js中的npmupdate如何使用 nodejsnpm包管理的配置方法及常用命令介...node.js+Ajax实现获取HTTP服务器返回数...nodejs调用cmd命令实现复制目录_node.j...快速搭建Node.js(Express)用户注册、登...nodejs入门教程五：连接数据库的方法分...nodejs中自动启用服务==类似于前端的热...14款NodeJS Web框架推荐