首页 / NODEJS / 用nodejs库cheerio抓取网页图片

用nodejs库cheerio抓取网页图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用nodejs库cheerio抓取网页图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2667字，纯文字阅读大概需要4分钟。

内容图文

之前都是PHP(phpQuery)抓取，但jQuery更强大，于是用nodejs。只是node-jquery的依赖太多，只好用cheerio

下面是一个抓取脚本：

            var http = require(‘http‘);
var fs = require(‘fs‘);
var cheerio = require("cheerio");
var bufferhelper = require("bufferhelper");
var Iconv = require("iconv").Iconv;
var mysql = require("mysql");


var myConn = mysql.createConnection({
    host: ‘192.168.1.133‘,
    user: ‘php‘,
    password: ‘php‘,
    port:‘3306‘,
    database:‘crawl_db‘,
    charset: ‘UTF8MB4_GENERAL_CI‘,
    connectTimeout: 1000
});

//var IMAGE_DIR = __dirname+"/images/";var BASE_DIR = ‘/web/wwwroot/crawl_data/‘;
var IMAGE_DIR = ‘public/media/cards/‘;

// 根据src和id取得一个目标存放路径var create_file_dest = function(src, id){
    //var basename = src.replace(/.*\/([^\/]+\.(png|jpg|jpeg|gif))$/g, "$1");//var saveTo = IMAGE_DIR + basename;var basename = id + src.substr( src.lastIndexOf(‘.‘) );
    var dest = IMAGE_DIR + basename;
    return dest;
};

// 将图片下载到目的路径var download_image = function(src, dest){
    http.get(src, function(res){
        var dataBuffer = new bufferhelper();
        res.on(‘data‘, function(chunk){
               //dataBuffer += chunk;               dataBuffer.concat(chunk);

        }).on(‘end‘, function(){
            var con = dataBuffer.toBuffer();
            fs.writeFile(dest, con, function(err){
                if(err) console.log("Error: write file failure ["+ dest +"]");
            });
        }).on(‘error‘, function(e){
                 console.log( "Got error:"+ e.message );
        });

    });

};


http.get(
    {
        hostname: ‘2gree.info‘,
          port: 80,
          path: ‘/artgenre?category_id=45&type=bbsios2‘,
          headers: {
            ‘User-Agent‘: ‘Mozilla/5.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/600.1.3 (KHTML, like Gecko) Version/8.0 Mobile/12A4345d Safari/600.1.4‘
          }
    }, 
    function(res){
        var html = ‘‘;
        var chunks = [];
        var dataBuffer = new bufferhelper();
        
        res.on(‘data‘, function(chunk){
            chunks.push(chunk);
            dataBuffer.concat(chunk);
        });
        res.on(‘end‘, function(){
            var convt = new Iconv(‘SHIFT_JIS‘, ‘UTF-8‘);
            html = convt.convert( dataBuffer.toBuffer() );

//fs.writeFile(__dirname+‘/hehe.html‘, html);var sql = ‘INSERT INTO xc_card(card_id, name, image) VALUES ?‘;
            var cats = [], values = [];
            var $ = cheerio.load(html);
            $(‘#news li‘).each(function(i){
                var e = {"title":"", src:"", dest:""};
                var cardId = 2001+i;
                e.src = $(this).find(‘.image img‘).attr(‘src‘);
                e.title = $(this).find(‘.title‘).text();
                e.dest = create_file_dest(e.src, cardId);
                cats.push(e);

                values[i] = [cardId, e.title, e.dest];

                if(!e.src) returntrue;

                download_image(e.src, BASE_DIR + e.dest);
            });

            myConn.query(sql, [values], function(err){
                if(err) console.log(err);
                myConn.end();
            });

            cats = JSON.stringify(cats);
            fs.writeFile(__dirname+‘/details.json‘, cats);
        });
        res.on(‘error‘, function(e){
            console.log(e.message);
        });
    }
);

原文：http://www.cnblogs.com/antarctican/p/5191231.html

内容总结

以上是互联网集市为您收集整理的用nodejs库cheerio抓取网页图片全部内容，希望文章能够帮你解决用nodejs库cheerio抓取网页图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1064963.html

来源：【匿名】

【上一篇】NodeJS学习笔记之mongose 【下一篇】node.js和php的区别有哪些？

更多 ►

【用nodejs库cheerio抓取网页图片】教程文章相关的互联网学习教程文章

nodejs爬虫数据抓取 -- 问题总结【图】

一返回的信息提示 Something went wrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2. curl 请求正常　　解决办法：为请求添加user-agent头，如取消上注释部分。（我发现，只要有了user-agent这个key,无论其value是否为空，都可以正常返回了）所以对于模拟请求，有时候相应的http头部信息还是必须的。原文：http://www.cnblogs.com/imwtr/p/4679...

用nodejs库cheerio抓取网页图片【代码】

之前都是PHP(phpQuery)抓取，但jQuery更强大，于是用nodejs。只是node-jquery的依赖太多，只好用cheerio 下面是一个抓取脚本：var http = require(‘http‘); var fs = require(‘fs‘); var cheerio = require("cheerio"); var bufferhelper = require("bufferhelper"); var Iconv = require("iconv").Iconv; var mysql = require("mysql");var myConn = mysql.createConnection({host: ‘192.168.1.133‘,user: ‘php‘,pas...

javascript-Node.js抓取数据点击事件【代码】

我有一个重复的任务,必须定期执行.基本上,我需要进入网站,从不同的表中获取一些值,然后将其写入电子表格中.通过使用这些值,进行一些计算,准备报告等. 我想创建一个辅助机器人,因为这是直接的任务.我基本上可以通过打开控制台(在相关页面上)以及使用DOM或Jquery来获取信息,从而轻松获取数据. 我想更进一步,并在Node.js上创建一个应用程序(无需进入相关网站,我会将我的机器人发送到相关页面,并执行与控制台相同的操作.)我开始用cheer...

node.js实现微信小程序抓取网页内容【图】

本篇文章给大家带来的内容是关于node.js实现微信小程序抓取网页内容，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。最近在研究微信小程序的云开发功能。云开发最大的好处就是不需要前端搭建服务器，可以使用云端能力，从零开始写出来一个能上线的微信小程序，避免了买服务器的开销，对于个人来尝试练手微信小程序从前端到后台的开发，还是一个不错的选择。可以做到一天就能上线一个微信小程序。云开发的优点云开...

node.js如何实现抓取代理ip？

这篇文章主要介绍了node.js 抓取代理ip实例代码的相关资料,需要的朋友可以参考下node.js实现抓取代理ip 主要文件：index.js/* * 支持：node.js v7.9.0 */ const cheerio=require(cheerio); const fetch =require(node-fetch); const Promise=require(bluebird); let mongoose=require(mongoose);Promise.promisifyAll(mongoose); let Schema=mongoose.Schema; mongoose.connect(mongodb://localhost:27017/ipproxypool); let IPpoo...

Nodejs抓取html页面内容

废话不多说，直接给大家贴node.js抓取html页面内容的核心代码了。具体代码如下所示：var http = require("http"); var iconv = require(iconv-lite); var option = { hostname: "stockdata.stock.hexun.com", path: "/gszl/s601398.shtml" }; var req = http.request(option, function(res) { res.on("data", function(chunk) { console.log(iconv.decode(chunk, "gbk")); }); }).on("error", function(e) { console.log(e.message...

Node.js编写爬虫的基本思路及抓取百度图片的实例分享_node.js

其实写爬虫的思路十分简单：按照一定的规律发送 HTTP 请求获得页面 HTML 源码（必要时需要加上一定的 HTTP 头信息，比如 cookie 或 referer 之类）利用正则匹配或第三方模块解析 HTML 代码，提取有效数据将数据持久化到数据库中但是真正写起这个爬虫来，我还是遇到了很多的问题（和自己的基础不扎实也有很大的关系，node.js 并没有怎么认真的学过）。主要还是 node.js 的异步和回调知识没有完全掌握，导致在写代码的过程中走了很多...

利用NodeJS和PhantomJS抓取网站页面信息以及网站截图_javascript技巧【代码】【图】

利用PhantomJS做网页截图经济适用，但其API较少，做其他功能就比较吃力了。例如，其自带的Web Server Mongoose最高只能同时支持10个请求，指望他能独立成为一个服务是不怎么实际的。所以这里需要另一个语言来支撑服务，这里选用NodeJS来完成。安装PhantomJS 首先，去PhantomJS官网下载对应平台的版本，或者下载源代码自行编译。然后将PhantomJS配置进环境变量，输入$ phantomjs 如果有反应，那么就可以进行下一步了。利用PhantomJ...

Node.js实现的简易网页抓取功能示例_node.js

现今，网页抓取已经是一种人所共知的技术了，然而依然存在着诸多复杂性，简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest，WebSockets，Flash Sockets等各种复杂技术所开发出来的现代化网站。我们以我们在Hubdoc这个项目上的基础需求为例，在这个项目中，我们从银行，公共事业和信用卡公司的网站上抓取帐单金额，到期日期，账户号码，以及最重要的：近期账单的pdf。对于这个项目，我一开始采用了很简单的方案（暂时并没有使...

Node.js抓取中文网页乱码问题和解决方法_node.js

Node.js 抓取非 utf-8 的中文网页时会出现乱码问题，比如网易的首页编码是 gb2312，抓取时会出现乱码代码如下: var request = require(request) var url = http://www.163.com request(url, function (err, res, body) { console.log(body) })可以使用 iconv-lite 来解决安装代码如下: npm install iconv-lite 同时我们顺带把 user-agent 修改一下，以防网站屏蔽：代码如下: var originRequest = require(request) var icon...

用Node.js通过sitemap.xml批量抓取美女图片_javascript技巧

之前看了很多个版本，自己也搞一个。1. 支持指定保存到哪个目录 2. 按文章进行分目录存放 3. 支持设置并行下载上限下次有空再搞个整站下载的。 package.json{"name": "me2sex-images","version": "0.0.1","description": "Batch download images from http://me2-sex.lofter.com","main": "index.js","author": "Fay","license": "MIT","dependencies": {"async": "^0.9.0","cheerio": "^0.18.0","mkdirp": "^0.5.0","request": "...

nodejs爬虫抓取数据乱码问题总结_node.js【图】

一、非UTF-8页面处理. 1.背景 windows-1251编码比如俄语网站：https://vk.com/cciinniikk 可耻地发现是这种编码所有这里主要说的是 Windows-1251（cp1251）编码与utf-8编码的问题，其他的如 gbk就先不考虑在内了~ 2.解决方案 1. 使用js原生编码转换但是我现在还没找到办法哈.. 如果是utf-8转window-1251还可以http://stackoverflow.com/questions/2696481/encoding-conversation-utf-8-to-1251-in-javascriptvar DMap = {0: 0, 1...

nodejs爬虫抓取数据之编码问题_node.js【图】

cheerio DOM化并解析的时候 1.假如使用了 .text()方法，则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了类似这些因为需要作数据存储，所有需要转换代码如下: Халк крушит. Новый способ исполнен大多数都是&#(x)?\w+的格式所以就用正则转换一番var body = ....//这里就是请求后获得的返回数据，或者那些 ....

node.js抓取并分析网页内容有无特殊内容的js文件_node.js

nodejs获取网页内容绑定data事件，获取到的数据会分几次相应，如果想全局内容匹配，需要等待请求结束，在end结束事件里把累积起来的全局数据进行操作！举个例子，比如要在页面中找有没有www.baidu.com，不多说了，直接放代码：//引入模块 var http = require("http"), fs = require('fs'), url = require('url'); //写入文件，把结果写入不同的文件 var writeRes = function(p, r) {fs.appendFile(p , r, function(err) {if(err)co...

基于Node.js的强大爬虫能直接发布抓取的文章哦_node.js

一、环境配置 1）搞一台服务器，什么linux都行，我用的是CentOS 6.5； 2）装个mysql数据库，5.5或5.6均可，图省事可以直接用lnmp或lamp来装，回头还能直接在浏览器看日志； 3）先安个node.js环境，我用的是0.12.7，更靠后的版本没试过； 4）执行npm -g install forever，安装forever好让爬虫在后台跑； 5）把所有代码整到本地（整=git clone）； 6）在项目目录下执行npm install安装依赖库； 7）在项目目录下创建json和avatar两个...

NODEJS - 技术教程分类

Node.js 教程 Node.js 安装配置 Node.js 创建第一个应用 NPM 使用介绍 Node.js REPL Node.js 回调函数 Node.js 事件循环 Node.js EventEmitter Node.js Buffer Node.js Stream Node.js 模块系统 Node.js 函数 Node.js 路由 Node.js 全局对象 Node.js 常用工具 Node.js 文件系统 Node.js GET/POST请求 Node.js 工具模块 Node.js Web 模块 Node.js Express 框架 Node.js RESTful API Node.js 多进程 Node.js MySQL Node.js MongoDB nodejs 全部

NODEJS - 最热教程

Node.js Error: Cannot find module ex...如何使用node.js实现获取微信用户授权（...node.js中的npmupdate如何使用 nodejsnpm包管理的配置方法及常用命令介...node.js+Ajax实现获取HTTP服务器返回数...nodejs调用cmd命令实现复制目录_node.j...快速搭建Node.js(Express)用户注册、登...nodejs入门教程五：连接数据库的方法分...nodejs中自动启用服务==类似于前端的热...14款NodeJS Web框架推荐

首页 / NODEJS / 用nodejs库cheerio抓取网页图片

用nodejs库cheerio抓取网页图片

内容导读

内容图文

内容总结

内容备注

内容手机端

【用nodejs库cheerio抓取网页图片】教程文章相关的互联网学习教程文章

NODEJS - 技术教程分类

NODEJS - 最新教程

NODEJS - 最热教程