首页 / HTML / node爬取html乱码

node爬取html乱码

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了node爬取html乱码，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3906字，纯文字阅读大概需要6分钟。

内容图文

var http = require('http'),
    iconv = require('iconv-lite');

http.get("http://website.com/", function(res) {
  var body = '';
  res.on('data', function(chunk) {
    body += chunk;
  });
  res.on('end', function() {
    var decodedBody = iconv.decode(body, 'win1252'); // 或者gbk/gb2312等
    console.log(decodedBody);
  });
});

在使用iconv.decode()解码之前，最初的资源已经通过body += chunk解码了，发生了什么：

res.on('data', function(chunkBuffer) {
    body += chunkBuffer.toString('utf8');
  });

如果你设置了res.setEncoding(‘utf8’);。那么和上面的转化是一样的。

对于最开始的问题，使用了两次解码（无论一次还是两次），都是错误的结果。几乎是不可能地回复最初的字节因为utf8转换是有损耗的（lossy）。所以即使是iconv.decode(new Buffer(body, 'utf8'), 'win1252')也无济于事。

注意： theoretically, if you use ‘binary’ encoding to first decode to strings, then feed them to decode, you get the correct results. This is a bad practice because it’s slower, it’s mixing concepts and ‘binary’ encoding is deprecated.
这段不是很懂什么意思，反正使用’binary’编码是不赞成的。（二进制编码？）

解决方案

保持开始的buffer并且使用iconv.decode，如果有必要，可以使用Buffer.concat()。

首先需要知道的是，在data事件的时候，所有的js字符串都是经过解码（utf8）的，我们就不需要手动解码了。

http.get("http://website.com/", function(res) {
  var chunks = [];
  res.on('data', function(chunk) {
    chunks.push(chunk);
  });
  res.on('end', function() {
    var decodedBody = iconv.decode(Buffer.concat(chunks), 'win1252');
    console.log(decodedBody);
  });
});

// Or, with iconv-lite@0.4 and Node v0.10+, you can use streaming support with `collect` helper
http.get("http://website.com/", function(res) {
  res.pipe(iconv.decodeStream('win1252')).collect(function(err, decodedBody) {
    console.log(decodedBody);
  });
});

如果想要忽略警告：
iconv.skipDecodeWarning = true;

转自https://blog.csdn.net/real_bird/article/details/53309512

iconv.skipDecodeWarning = true;

Node.js npm iconv-lite - 司马懿的西山居

3635

译自 https://www.npmjs.com/package/iconv-lite Convert character encodings in pure javascript. 使用纯 ja... 来自：司马懿的西山居

Node.js转化GBK编码 - iconv-lite - zgljl2012的专栏

8379

node当使用node获取GBK编码的数据时，nodejs只支持utf-8，node没有提供转换编码的原生支持，有倒是有一个模块iconv能干这个事，但需要本地方法，VC++库的支持。国外有个大牛写了... 来自： zgljl2012的专栏

【Node.js】使用iconv-lite解决中文乱码 (GB2312) - Sodino的专栏

1.3万

By?Sodino?作为新手，碰到问题了就google了一下，网上已经有teary:window下nodejs爬取gb2312网页出现乱码的解决方案出来了。本文和上面的作法几乎相同，只是自己不想引用b... 来自： Sodino的专栏

iconv-lite - haliofwu的专栏

1743

node当使用node获取GBK编码的数据时，nodejs只支持utf-8，node没有提供转换编码的原生支持，有倒是有一个模块iconv能干这个事，但需要本地方法，VC++库的支持。国外有个大牛写了... 来自： haliofwu的专栏

iconv转码问题出现乱码问题 - 乐杨俊浅谈LAMP

2490

iconv转码问题 iconv("UTF-8","GB2312//IGNORE",$data) 来自：乐杨俊浅谈LAMP

关于iconv容易忽略的参数IGNORE - leehq的专栏

2588

解决iconv因为无法处理某个字符而导致转换中断的问题。来自： leehq的专栏

下载

nodejs iconv-lite模块 - newandlife

09-22 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高

Error: Cannot find module 'iconv-lite' - cyssxt的博客

263

E:\workspace_20180125\travel-app\travel-app>npm start> travel-app@1.0.0 start E:\works... 来自： cyssxt的博客

no suited ad found

iconv字符编码转换全攻略 - 月落满楼

1.8万

iconv（http://www.gnu.org/software/libiconv/）是一个开源的字符编码转换库，可以“方便”的完成几乎所有的编码转换工作。说简单是因为，它常用的接口就三个，icon... 来自：月落满楼

ioS开发－－Warning警告处理 - zzzzzdddddxxxxx的专栏

5349

去除警告的方法： #pragma clang diagnostic push #pragma clang diagnostic ignored"-Wunused-function" local vo... 来自： zzzzzdddddxxxxx的专栏

逍遥子_

关注 310篇文章

Hensen_

关注 182篇文章

后海hh

关注 109篇文章

内容总结

以上是互联网集市为您收集整理的node爬取html乱码全部内容，希望文章能够帮你解决node爬取html乱码所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/846968.html

来源：【匿名】

【上一篇】python测试开发django-2.templates模板与html页【下一篇】PHP 和 HTML

更多 ►

【node爬取html乱码】教程文章相关的互联网学习教程文章

火狐浏览器打开html文件，中文乱码【图】

当html文件为：解决方法：将 <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />改为：：<meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> 即可。原文：http://www.cnblogs.com/jiangsheng3/p/5053576.html

为什么jsp include html后会出现乱码？【代码】

JSP有两种属性：pageEncoding和contentType；前者是jsp文件本身的编码，而后者的charset是指服务器发送给客户端时的内容编码。所以说JSP要经过两次的“编码”，第一阶段pageEncoding，第二阶段会用utf-8至utf-8，第三阶段就是在客户端浏览器里看到的网页，用的是contentType。第一阶段是jsp编译成.java，它会根据pageEncoding的设定读取jsp，结果是由指定的编码方案翻译成统一的UTF-8 JAVA源码（即.java），如果pageEncoding设定错...

HTML页面为什么设置了UTF-8仍然中文乱码【图】

如题，其实问题很简单，在用EditPlus写html页面的时候，发现设置为UTF-8的时候仍然出现了乱码，这是一个很奇怪的问题，而且我完全考虑了浏览器的解析问题，将title放在了了meta标签之后，之后突然想起页面保存时候的编码问题，在保存页面的时候EditPlus默认的是ANSI的编码方式，而不是UTF-8。所以在保存页面的时候注意选择编码方式为UTF-8即可。如果要修改EditPlus默认的编码方式，可以在tools---configure user tools，配置为Defa...

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式： public static HtmlDocument LoadHtmlByUrls(string url) { HtmlDocument htmldoc; HtmlWeb htmlWeb = new HtmlWeb(); //不够完善此内置方法导致中文乱码 //htmlWeb.OverrideEncoding = Encoding.UTF8; htmldoc = htmlWeb.Load(url); Encoding coding = htmldoc.StreamEncoding; htmlWeb.Over...

JSP中的include（静态包含文件）在包含html文件时，乱码问题的解决方法。

第一种办法：就是不要include html页面，改成include jsp页面第二种办法：为被包含的html文件也在第一行添加如jsp一样的指令<%@ page lanage="java" pageEncoding="UTF-8" contentType="text/html;UTF-8" %>第三种办法：在web.xml中通过配置来告诉web应用，所有html文件输出时都采用UTF-8的编码，配置内容如下：<jsp-config><jsp-property-group><url-pattern>*.html</url-pattern><page-encoding>UTF-8</page-encoding></jsp-prop...

html网页中加载js脚本下载下来是乱码（文件编码格式）【代码】【图】

问题描述：在一个index.html网页中，引入了jquery脚本，但是却出现错误，提示$ is not defined<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>Document</title><script src=‘js/jquery-1.9.1.min.js‘></script></head> <body>window.onload=function (){console.log($); //$ is not defined} </body> </html> 在控制台下，发现jquery返回的是乱码格式，所以才会出现上述错误。正常情况下，应该是这样...

Jsoup处理html空格乱码问题

由于在html中空格只能用表示，当运用Jsoup抓取html页面后，我们将html页面进行解析时，Java对html页面的代码不识别，输入到控制台时出现乱码，在网上查了很多资料都没有找到很好的解决办法，最后在一篇论坛中说到“运用字符串替换”可以进行解决，于是运用简单的字符串替换原理对此进行处理。对其替换处理后再对html文件进行解析。具体实现代码如下：//参数说明：oldFile为所需要替换的文件，即为原文件； newFile为替换后新的文...

在具体的前端工作中通常HTML页面乱码怎么解决？【代码】【图】

HTML文件乱码一般是因为编码格式不匹配造成的，比如：不同编码内容混杂、浏览器不能自动检测网页编码等等；但无论是哪种情况造成乱码，在HTML文件头中设置网页编码，匹配好编码格式就可。下面是一个中文乱码的html：<!DOCTYPE html> <html><body><h1>标题</h1><p>这是一段测试文本！</p></body> </html> 效果图：HTML中的编码方式有三个：gb2312，gbk，utf-8；现在大部分浏览器默认编码的是utf-8。我们只需要把HTML编码方式设置为u...

html中文乱码HTML超链接中文乱码问题分析及解决方法_HTML/Xhtml_网页制作

Vm中一个超链接URL需要拼接中文作为Get请求的参数。如果直接拼接，传到后台Action的参数对象中后取出会是乱码，需要编码后再拼接到URL上。解决方法是在Action中添加一个成员变量，保存编码后的中文参数。在vm页面渲染时取出这个变量值，再拼接超链接。在这里碰到的问题是：调用java.net.URLEncoder的encode()方法时，如果没有显示指定字符集参数，那么URLEncoder会使用默认字符集。这个默认字符集在Eclipse里跑main()方法和在Tom...

如何解决php html乱码【代码】【图】

php html乱码的解决办法：1、在网页中加上“charset=utf8”；2、修改文件本身的编码为utf8；3、在MySQL创建数据库时将字符集和排序规则设置为utf8即可。推荐：《PHP视频教程》本教程操作环境：Windows7系统、PHP7.1版，该方法适用于所有品牌电脑。解决php html乱码在自己制作一个网页时，时常会遇到网页乱码的问题。其实导致网页乱码主要有几个原因，以下给出解决方法。1、HTML的字符编码问题该问题较常见，也是最明显和最容易解决...

如何解决php html乱码【代码】【图】

如何解决php html中文乱码问题【代码】【图】

php html中文乱码的解决办法：1、在head标签里面加入“UTF-8”编码；2、在PHP文件中加入“header("content-type:text/html;charset=utf-8");”。推荐：《PHP视频教程》1、解决HTML中页面中文乱码问题如果你的HTML文本文件出现了筹码问题，那么你可以在head标签里面加入UTF-8编码（国际化编码）：UTF-8是没有国家的编码，也就是独立一种语言，任何语言都可以使用的。<meta http-equiv="content-Type" content="text/html;charset=ut...

PHP页面为什么出现HTML乱码【代码】【图】

PHP页面为什么出现HTML乱码1、PHP网页编码的错误；如果欲使用gb2312编码，那么php要输出头：header(“Content-Type: text/html; charset=gb2312")，静态页面添加，所有文件的编码格式为ANSI，可用记事本打开，另存为选择编码为ANSI，覆盖源文件。如果欲使用utf-8编码，那么php要输出头：header(“Content-Type: text/html; charset=utf-8")，静态页面添加，所有文件的编码格式为utf-8。保存为utf-8可能会有点麻烦，一般utf-8文件开...

php加载html乱码【图】

PHP与html交互出现乱码HTML部分如果是html在head中添加:<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />如果是html5：<meta charste="utf-8">PHP部分如果是在和html混排时建议在脚本首行添加：<?php header("content-type:text/html;charset=utf-8"); ?>在连接数据库后，对数据库设置编码（非永久有效）@$db = new mysqli($host, $user, $passwd) $db->query("set names utf8");如果是仅针对一两个参数，可...

HTML乱码问题解析【图】

本文主要和大家分享HTML乱码问题解析，希望能帮助到大家。出现乱码问题，主要是因为html的编码问题，我们使用的text创建的文件，默认的是ANSI！未设置HTML编码：<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />未设置，这里设置的是utf-8解决方案把文件另存为，同时改成UTF-8就好！在HTML文件头中增加下面代码：<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />根本原因HTML文件的...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / node爬取html乱码

node爬取html乱码

内容导读

内容图文

解决方案

Node.js npm iconv-lite - 司马懿的西山居

Node.js转化GBK编码 - iconv-lite - zgljl2012的专栏

【Node.js】使用iconv-lite解决中文乱码 (GB2312) - Sodino的专栏

iconv-lite - haliofwu的专栏

iconv转码问题出现乱码问题 - 乐杨俊浅谈LAMP

关于iconv容易忽略的参数IGNORE - leehq的专栏

nodejs iconv-lite模块 - newandlife

Error: Cannot find module 'iconv-lite' - cyssxt的博客

iconv字符编码转换全攻略 - 月落满楼

ioS开发－－Warning警告处理 - zzzzzdddddxxxxx的专栏

逍遥子_

Hensen_

后海hh

内容总结

内容备注

内容手机端

【node爬取html乱码】教程文章相关的互联网学习教程文章

HTML - 相关标签

NODE - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程