如何用node实现爬虫功能

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了如何用node实现爬虫功能，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2171字，纯文字阅读大概需要4分钟。

内容图文

这次给大家带来如何用node实现爬虫功能，用node实现爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。

node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信息。

第一步： 建立crawl文件，然后npm init。

第二步： 建立crawl.js文件，一个简单的爬取整个页面的代码如下所示：

var http = require("http");
var url = "http://www.cnblogs.com";
http.get(url, function (res) {
  var html = "";
  res.on("data", function (data) {
    html += data;
  });
  res.on("end", function () {
    console.log(html);
  });
}).on("error", function () {
  console.log("获取课程结果错误！");
});

即引入http模块，然后利用http对象的get请求，即一旦运行，相当于node服务器端发送了一个get请求请求这个页面，然后通过res返回，其中on绑定data事件用来不断地接受数据，最后end时我们就在后台打印出来。

这只是整个页面的一部分，我们可以在此页面审查元素，发现确实是一样的

我们只需要将其中的章节title和每一小节的信息爬到即可。

第三步： 引入cheerio模块，如下：（在gitbash中安装即可，cmd总是出问题）

cnpm install cheerio --save-dev

这个模块的引入，就是为了方便我们操作dom，就像jQuery一样。

第四步： 操作dom，获取有用信息。

var http = require("http");
var cheerio = require("cheerio");
var url = "http://www.cnblogs.com";
function filterData(html) {
  var $ = cheerio.load(html); 
  var items = $(".post_item");
  var result = [];
  items.each(function (item) {
    var tit = $(this).find(".titlelnk").text();
    var aut = $(this).find(".lightblue").text();
    var one = {
      title: tit,
      author: aut
    };
    result.push(one);
  });
  return result;
}
function printInfos(allInfos) {
  allInfos.forEach(function (item) {
    console.log("文章题目 " + item["title"] + '\n' + "文章作者 " + item["author"] + '\n'+ '\n');
  });
}
http.get(url, function (res) {
  var html = "";
  res.on("data", function (data) {
    html += data;
  });
  res.on("end", function (data) {
    var allInfos = filterData(html);
    printInfos(allInfos);
  });
}).on("error", function () {
  console.log("爬取博客园首页失败")
});

即上面的过程就是在爬取博客的题目和作者。

最终后台输出如下：

如何用node实现爬虫功能 - 文章图片

这和博客园首页的内容是一致的：

如何用node实现爬虫功能 - 文章图片

相信看了本文案例你已经掌握了方法，更多精彩请关注Gxl网其它相关文章！

内容总结

以上是互联网集市为您收集整理的如何用node实现爬虫功能全部内容，希望文章能够帮你解决如何用node实现爬虫功能所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/289754.html

来源：【匿名】

【上一篇】node实现爬虫功能案例分析【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【如何用node实现爬虫功能】教程文章相关的互联网学习教程文章

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

php与python实现的线程池多线程爬虫功能示例

本文实例讲述了php与python实现的线程池多线程爬虫功能。分享给大家供大家参考，具体如下：多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下： php例子 <?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch = curl_init(); curl_setopt(self::$ch, CURLOPT_TIMEOUT...

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

QueryList 是什么?QueryList是一套用于内容采集的PHP工具，它使用更加现代化的开发思想，语法简洁、优雅，可扩展性强。相比传统的使用晦涩的正则表达式来做采集，QueryList使用了更加强大而优雅的CSS选择器来做采集，大大降低了PHP做采集的门槛，同时也让采集代码易读易维护，让你从此告别晦涩难懂且不易维护的正则表达式。 QueryList 提供的一整套内容采集解决方案● DOM内容选择：CSS选择器● HTTP客户端：GuzzleHTTP● 内容过滤...

如何用node实现爬虫功能【图】

这次给大家带来如何用node实现爬虫功能，用node实现爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信息。第一步：建立crawl文件，然后npm init。第二步：建立crawl.js文件，一个简单的爬取整个页面的代码如下所示：var http = require("http"); var url = "http://www.cnblogs.com"; http.get(url,...

node实现爬虫功能案例分析【图】

这次给大家带来node实现爬虫功能案例分析，node实现爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信息。第一步：建立crawl文件，然后npm init。第二步：建立crawl.js文件，一个简单的爬取整个页面的代码如下所示：var http = require("http"); var url = "http://www.cnblogs.com"; http.get(url,...

node实现的爬虫功能【图】

这篇文章主要介绍了node实现的爬虫功能,结合实例形式分析了nodejs实现爬虫功能的步骤与相关操作技巧,需要的朋友可以参考下本文实例讲述了node实现的爬虫功能。分享给大家供大家参考，具体如下：node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信息。第一步：建立crawl文件，然后npm init。第二步：建立crawl.js文件，一个简单的爬取整个页面的代码如下所示：var...

怎样实现百度指数爬虫功能

这次给大家带来怎样实现百度指数爬虫功能，实现百度指数爬虫功能的注意事项有哪些，下面就是实战案例，一起来看一下。之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，来绕过所有这些前端反爬虫手段。下面的代码以百度指数为例，代码已经封装成一个百度指数爬虫node库： https://github.com/Coffcer/baidu-index-spidernote: 请勿滥用爬虫给他人添...

NodeJs实现简单的爬虫功能案例分析【图】

1.爬虫：爬虫，是一种按照一定的规则，自动地抓取网页信息的程序或者脚本；利用NodeJS实现一个简单的爬虫案例，爬取Boss直聘网站的web前端相关的招聘信息，以广州地区为例； 2.脚本所用到的nodejs模块 express 用来搭建一个服务，将结果渲染到页面 swig 模板引擎 cheerio 用来抓取页面的数据 requests 用来发送请求数据(具体可查:https://www.npmjs.com/package/requests) async 用来...

node实现的爬虫功能示例【图】

本文实例讲述了node实现的爬虫功能。分享给大家供大家参考，具体如下： node是服务器端的语言，所以可以像python一样对网站进行爬取，下面就使用node对博客园进行爬取，得到其中所有的章节信息。第一步：建立crawl文件，然后npm init。第二步：建立crawl.js文件，一个简单的爬取整个页面的代码如下所示： var http = require("http"); var url = "http://www.cnblogs.com"; http.get(url, function (res) {var html = "";res.o...

Python爬虫实现全国失信被执行人名单查询功能示例【图】

这篇文章主要介绍了Python爬虫实现全国失信被执行人名单查询功能,涉及Python爬虫相关网络接口调用及json数据转换等相关操作技巧,需要的朋友可以参考下本文实例讲述了Python爬虫实现全国失信被执行人名单查询功能。分享给大家供大家参考，具体如下：一、需求说明利用百度的接口，实现一个全国失信被执行人名单查询功能。输入姓名，查询是否在全国失信被执行人名单中。二、python实现版本1：# -*- coding:utf-8*- import sys reload(...

Python爬虫爬验证码实现功能详细介绍【图】

这篇文章主要介绍了Python爬虫爬验证码实现功能详解的相关资料,需要的朋友可以参考下主要实现功能：- 登陆网页- 动态等待网页加载- 验证码下载很早就有一个想法，就是自动按照脚本执行一个功能，节省大量的人力——个人比较懒。花了几天写了写，本着想完成验证码的识别，从根本上解决问题，只是难度太高，识别的准确率又太低，计划再次告一段落。希望这次经历可以与大家进行分享和交流。Python打开浏览器相比与自带的urllib2模块，...

python实现简单爬虫功能【图】

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。　　我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。　　我们可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代...

Python爬虫爬验证码实现功能详解【图】

主要实现功能：- 登陆网页- 动态等待网页加载- 验证码下载很早就有一个想法，就是自动按照脚本执行一个功能，节省大量的人力——个人比较懒。花了几天写了写，本着想完成验证码的识别，从根本上解决问题，只是难度太高，识别的准确率又太低，计划再次告一段落。希望这次经历可以与大家进行分享和交流。 Python打开浏览器相比与自带的urllib2模块，操作比较麻烦，针对于一部分网页还需要对cookie进行保存，很不方便。于是，我这里...

基于Python3.4实现简单抓取爬虫功能详细介绍

这篇文章主要介绍了Python3.4编程实现简单抓取爬虫功能,涉及Python3.4网页抓取及正则解析相关操作技巧,需要的朋友可以参考下本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考，具体如下：import urllib.request import urllib.parse import re import urllib.request,urllib.parse,http.cookiejar import time def getHtml(url):cj=http.cookiejar.CookieJar()opener=urllib.request.build_opener(urllib.r...

Python网络爬虫功能的基本写法介绍

这篇文章主要介绍了Python网络爬虫功能的基本写法，网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛，对网络爬虫感兴趣的朋友可以参考本文网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。1. 网络爬虫的定义网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内...

首页 / 爬虫 / 如何用node实现爬虫功能

如何用node实现爬虫功能

内容导读

内容图文

内容总结

内容备注

内容手机端

【如何用node实现爬虫功能】教程文章相关的互联网学习教程文章

php与python实现的线程池多线程爬虫功能实例详解

php与python实现的线程池多线程爬虫功能示例

Thinkphp5与QueryList实现采集页面功能（爬虫）【代码】【图】

如何用node实现爬虫功能【图】

node实现爬虫功能案例分析【图】

node实现的爬虫功能【图】

怎样实现百度指数爬虫功能

NodeJs实现简单的爬虫功能案例分析【图】

node实现的爬虫功能示例【图】

Python爬虫实现全国失信被执行人名单查询功能示例【图】

Python爬虫爬验证码实现功能详细介绍【图】

python实现简单爬虫功能【图】

Python爬虫爬验证码实现功能详解【图】

基于Python3.4实现简单抓取爬虫功能详细介绍

Python网络爬虫功能的基本写法介绍

NODE - 相关标签

爬虫 - 相关标签

功能 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程