node.js爬取数据(实操)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了node.js爬取数据(实操)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2597字，纯文字阅读大概需要4分钟。

内容图文

1.准备工作

前提是安装过node
准备一个文件夹，比如：“drag-data”
依次安装依赖 npm install https request cheerio --save
在文件夹drag-data下创建data和image两个文件，用来存储抓取的数据
（抓取豆瓣电影url=“https://movie.douban.com/subject/1291843/?from=subject-page”）

2. 编写启动js文件

在drag-data文件下创建index.js文件

// 引入和定义初始变量
let http = require('https')
let fs = require('fs') // 文件读写
let request = require('request') // 发送request请求
let cheerio = require('cheerio') // jquery写法-获得所欲页面dom元素
let url = 'https://movie.douban.com/subject/1291843/?from=subject-page'
let i = 0

function fetchPage (x) {
  startRequest(x)
}

// 开始函数
function startRequest (x) {
  // 用http模块向服务器发起get请求
  http.get(x, function(res) {
    // 存储请求网页的整个html内容
    let html = ''
    res.setEncoding('utf-8') // 防止中文乱码
    // 监听data事件，每次取一块数据
    res.on('data', function (chunk) {
      html += chunk
    })
    // console.info(html)
    // 监听end事件，如果整个页面的内容获取完毕，执行回调函数
    res.on('end', function () {
      let $ = cheerio.load(html) // 用cheerio模块解释html
      let news_item = {
        // 电影标题
        title: $('.related-info h2 i').text().trim(),
        // i是用来判断获取页数
        i: i = i + 1
      }
      console.info(news_item) // 新闻信息打印
      let news_title = $('.related-info h2 i').text().trim()
      saveContent($, news_title) // 存储每篇文章内容及标题
      saveImg($, news_title) // 存储每篇文章图片及标题

      // 下一篇电影的url
      nextlink = $('.recommendations-bd dl:last-child dd a').attr('href')
      if (i <= 10) {
        fetchPage(nextlink)
      }
    }).on('error', function (err) {
      console.info(err)
    })
  })
}

// 存储标题函数
function saveContent ($, news_title) {
  $('#link-report span').each(function (index, item) {
    let x = $(this).text()
    x = x + '\n'
    // 将新闻文本内容一段一段添加到/data文件夹下，并用新闻标题命名文件
    // fs.appendFile('./data/' + news_title + '.txt', x, 'utf-8', function(err) {
    //   if (err) {
    //     console.info(err)
    //   }
    // })
    fs.writeFile('./data/' + news_title + '.html', x, 'utf-8', function(err) {
      if (err) {
        console.info(err)
      }
    })
  })
}

// 在本地存储爬取得图片资源
function saveImg ($, news_title) {
  $('#mainpic img').each(function (index, item) {
    // 图片标题
    let img_title = $('#content h1 span').text().trim()
    if (img_title.length > 35 || img_title === '') {
      img_title = 'Null' // 图片标题过长
    }
    let img_filename = img_title + '.jpg'
    let img_src = $(this).attr('src') // 获取图片url
    // 用request模块，想服务器发请求，获取图片资源
    request.head(img_src, function (err, res, body) {
      if (err) {
        console.info(err)
      }
    })
    request(img_src).pipe(fs.createWriteStream('./image/' + news_title + '---' + img_filename))
  })
}

fetchPage(url)

3. 启动js文件

在git中执行 node index.js
结果如下图
node.js爬取数据(实操) - 文章图片

内容总结

以上是互联网集市为您收集整理的node.js爬取数据(实操)全部内容，希望文章能够帮你解决node.js爬取数据(实操)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/775697.html

来源：【匿名】

【上一篇】javascript – 使用http.request时Nodejs的性能如何扩展？【下一篇】node.js和php的区别有哪些？

更多 ►

【node.js爬取数据(实操)】教程文章相关的互联网学习教程文章

一返回的信息提示 Something went wrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2. curl 请求正常　　解决办法：为请求添加user-agent头，如取消上注释部分。（我发现，只要有了user-agent这个key,无论其value是否为空，都可以正常返回了）所以对于模拟请求，有时候相应的http头部信息还是必须的。原文：http://www.cnblogs.com/imwtr/p/4679...

一次PostgreSql数据迁移，使用nodejs来完成【图】

2014-02-08XX开放平台不允许使用站外的服务器了，可是我们的app都在站外，数据库也在站外，全都要求迁移到其云主机上（坑爹啊）。我们在其云主机上仅有有限的资源，而且也有在运行中的数据库，要做数据迁移，正好重新清理一下数据库吧，把过期的没用的数据都转入到历史库，将原系统的数据和云主机上的数据做一次合并，打算用nodejs从站外服务读取数据，然后发送到云主机上，云主机接受数据并合并到现有系统里。站外服务器和云主机上...

nodejs批量导入数据eventproxy（回调函数嵌套解决方案）使用实例【代码】

回调函数嵌套解决方案——eventProxyAPI地址：https://github.com/JacksonTian/eventproxy1、安装eventproxy执行npm install eventProxy.2、使用前进行声明，代码如下：var EP = require(‘eventproxy‘);3、根据API进行相应的方法调用，代码如下：ajax.post(‘/user/login‘, {name: ‘********‘,pwd: ‘******‘,rememberPwd: true}, function (resp, headers) {if (resp.success) {console.log("begin import");ajax.header.co...

nodejs如何mongodb数据库【代码】【图】

nodeJs链接mongodb数据库有两种方式，第一种是利用官方自己开发的npm包mongodb链接，第二种是利用第三方npm包mongoose链接；这里如果是window操作系统，建议用mongoose第一种，mongodb链接：先在项目中安装mongodb包：npm install mongodb安装成功以后，建立一个mongodb.js文件，写入代码：var mongo = require(‘mongodb‘),Server = mongo.Server,Db = mongo.Db;var server = new Server(‘127.0.0.1‘, 27017, {auto_reconnect:...

node.js Buffer类（二进制数据处理模块）【图】

Buffer类概述一个用于更好的操作二进制数据的类我们在操作文件或者网络数据的时候，其实操作的就是二进制数据流Node为我们提供了一个更加方便的去操作这种数据流的类 Buffer，他是一个全局的类，不需要引入后才能使用，可以直接使用 Buffer类的构造方法new Buffer(size)分配一个新的buffer大小是size的8位字节，参数size是一个Number类型的（类似数组的长度），一个长度表示1个字节创建一个Buffer对象，并为这个对象分配一个大小...

在NodeJS中使用Redis缓存数据【图】

Redis数据库采用极简的设计思想，最新版的源码包还不到2Mb。其在使用上也有别于一般的数据库。node_redisredis驱动程序多使用 node_redis　此模块可搭载官方的 hiredis C 语言库－同样是非阻塞的，比使用JavaScript内置的解释器性能稍好。可选择将hiredis 与 redis 一同安装。 npm install hiredis redis 如果 hiredis 安装成功, node_redis 会默认使用 hiredis，否则会使用JavaScript的解释器。 Redis的一个Key不仅可以对应一个...

nodejs 中接受前端的数据请求的处理

前台 ----> 后台　　后台要接受前台的数据，只能通过 http 　　但是前台接受后台的数据有 from ajax jsonp　　nodejs 给我们提供了模块 url 模块，可以专门解析 url 地址　　让我们在走一遍流程　　案例：　　const http=require("http");　　// 引入 http 模块，创建服务器　　const urlbli=require("url");　　// 引入 url 模块，解析 url 地址　　http.createServer(function(req,res){　　　　if(req.url.indexOf("?...

Node.js连接MySQL数据库及构造JSON的正确姿势【代码】【图】

做一下整理，以前也很随意的引入包链接数据库，后来发现常常连接出问题，异常退出，后来使用在网上一个方法解决问题，网址由于书签丢失，抱歉不能引用了。再有就是简单的模块化下，使得目录合理点，再有就是说明一下，标题有赚眼球的嫌疑，代码我这里使用正常，而且我觉得也蛮好用，不过不代表真的就是该这么写，毕竟我还是个node菜鸟，大神路过有更好的方式方法，还请留下脚印，感激不尽！Node版本：v0.10.34Express版本：4.9.0在...

node.js ejs模板引擎将后端数据赋值给前端js【代码】

使用node.js的Express脚手架生成项目默认是jade模板引擎，jade引擎实在是太难用了，这么难用还敢设为默认的模板引擎，过分了啊！用handlebars模板引擎写还说的过去，但笔者更愿意使用ejs，选它是因为跟Asp.Net的模板引擎有点相似吧。先来看一下这几个模板引擎：jade模板htmlheadtitle #{title}meta(charset="UTF-8")bodydiv.description #{description}ul- each data in datasli.item(id=‘item_‘+data.index)span= data.timea....

nodejs要远程连接另一个主机上的monogodb数据库服务器

我的mongodb是装在linux下的。首先，先添加用户1、首先在mongodb服务器主机上进行terminal命令行，输入mongo2、输入　use admin 　进入用户管理数据库3、db.addUser("username","password");这里的username和password分别为你要设置的用户名和密码，你可以多加几个，以备以后使用如没有提错误信息，说明已成功添加用户。其次，设置服务器可以通过其它主机的mongodb客户端可以连接1、在终端命令行上输入sudo vi /etc/mongod.conf2、...

Node.js连接数据库

Node.js连接数据库前，须要安装对应的包。假设安装sql server 须要先装包node-sqlserver。我们以mysql为案例来说明node.js查询mysql数据。1、安装 node-mysqlnpm install node-mysql2、通过express框架实现数据库连接var express = require('express'); var mysql = require('mysql'); var app = express(); app.use(function(req, res, next){console.log('%s %s', req.method, req.url);next(); }); var conn = mysql.createConn...

node.js利用redis数据库缓存数据的方法【图】

一、运行redis Redis服务器默认使用6379端口 redis-server自定义端口 redis-server –port 6390客户端 redis-cli指定ip和端口连接 redis-cli -h 127.0.0.1 -p 6390测试客户端和服务器是否连通 ping二、Nodejs连接redis 通过redis.createClient(port,host,options)来连接redis服务器 var redis = require("redis") var client = redis.createClient(); /*client.HMSET 保存哈希键值*/ client.HMSET(key,val,function(err,result){if...

node.js利用redis数据库缓存数据【图】

Redis数据库采用极简的设计思想，最新版的源码包还不到2Mb。其在使用上也有别于一般的数据库。下面这篇文章就来给大家介绍了node.js利用redis数据库缓存数据的方法，需要的朋友可以参考借鉴，下面来一起看看吧。一、运行redisRedis服务器默认使用6379端口redis-server自定义端口redis-server –port 6390客户端redis-cli指定ip和端口连接redis-cli -h 127.0.0.1 -p 6390测试客户端和服务器是否连通ping二、Nodejs连接redis通过redi...

在nodejs使用Redis缓存和查询数据及Session持久化(Express)【代码】【图】

原文链接：https://segmentfault.com/a/1190000002488971客户端与服务会使用一个Sessionid的Cookie值来进行客户端和服务器端会话的匹配，这个Cookie一般是服务器端读/写的，并在Http请求响应的Header中的Set-Cookie属性设置： HTTP/1.1 200 OK Server: nginx Date: Wed, 14 Jan 2015 02:29:09 GMT Content-Type: text/html Transfer-Encoding: chunked Proxy-Connection: Keep-Alive Connection: Keep-Alive Content-Encoding: gzi...

nodejs 定时调用shell脚本来备份数据库和日志文件并发送到邮箱【代码】

安装mailx,靠它来发送邮件 yum install mailx 编辑配置文件 vim /etc/mail.rc #添加如下内容set from=xxxx@163.com set smtp=smtp.163.com set smtp-auth-user=xx@qq.com set smtp-auth-password=xxx set smtp-auth=login---说明 from：对方收到邮件时显示的发件人 smtp：指定第三方发邮件的smtp服务器地址 set smtp-auth-user：第三方发邮件的用户名 set smtp-auth-password：用户名对应的密码,有些邮箱填的是授权码 smtp-auth：S...

NODEJS - 技术教程分类

Node.js 教程 Node.js 安装配置 Node.js 创建第一个应用 NPM 使用介绍 Node.js REPL Node.js 回调函数 Node.js 事件循环 Node.js EventEmitter Node.js Buffer Node.js Stream Node.js 模块系统 Node.js 函数 Node.js 路由 Node.js 全局对象 Node.js 常用工具 Node.js 文件系统 Node.js GET/POST请求 Node.js 工具模块 Node.js Web 模块 Node.js Express 框架 Node.js RESTful API Node.js 多进程 Node.js MySQL Node.js MongoDB nodejs 全部

NODEJS - 最热教程

Node.js Error: Cannot find module ex...如何使用node.js实现获取微信用户授权（...node.js中的npmupdate如何使用 nodejsnpm包管理的配置方法及常用命令介...node.js+Ajax实现获取HTTP服务器返回数...nodejs调用cmd命令实现复制目录_node.j...快速搭建Node.js(Express)用户注册、登...nodejs入门教程五：连接数据库的方法分...nodejs中自动启用服务==类似于前端的热...14款NodeJS Web框架推荐

首页 / NODEJS / node.js爬取数据(实操)

node.js爬取数据(实操)

内容导读

内容图文

1.准备工作

2. 编写启动js文件

3. 启动js文件

内容总结

内容备注

内容手机端

【node.js爬取数据(实操)】教程文章相关的互联网学习教程文章

nodejs爬虫数据抓取 -- 问题总结【图】

一次PostgreSql数据迁移，使用nodejs来完成【图】

nodejs批量导入数据eventproxy（回调函数嵌套解决方案）使用实例【代码】

nodejs如何mongodb数据库【代码】【图】

node.js Buffer类（二进制数据处理模块）【图】

在NodeJS中使用Redis缓存数据【图】

nodejs 中接受前端的数据请求的处理

Node.js连接MySQL数据库及构造JSON的正确姿势【代码】【图】

node.js ejs模板引擎将后端数据赋值给前端js【代码】

nodejs要远程连接另一个主机上的monogodb数据库服务器

Node.js连接数据库

node.js利用redis数据库缓存数据的方法【图】

node.js利用redis数据库缓存数据【图】

在nodejs使用Redis缓存和查询数据及Session持久化(Express)【代码】【图】

nodejs 定时调用shell脚本来备份数据库和日志文件并发送到邮箱【代码】

数据 - 相关标签

NODEJS - 技术教程分类

NODEJS - 最新教程

NODEJS - 最热教程