首页 / LINUX / 「Linux」- 识别文件编码、转换文件编码 @20210213

「Linux」- 识别文件编码、转换文件编码 @20210213

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了「Linux」- 识别文件编码、转换文件编码 @20210213，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3211字，纯文字阅读大概需要5分钟。

内容图文

问题描述

当我们使用编辑器打开文件时，文件有时候会显示为乱码，也就是说编辑器没有使用正确的编码方式打开文件。此时，我们则需要切换编辑器的编码方式，使用正确的编码方式打开文件。

但是，我们应该如何得知文件的正确编码呢？（除了被告知以外）

该笔记将记录：在 Linix 中，如何获取文件的编码方式，以及如何进行文件编码转换。

问题原因

直接获取文件的编码是不太可能的。虽然文件头可能暗示了文件编码（但其实并没有类似的规范），但也有例外。例如，以 0xEF,0xBB,0xBF 开头的可能是 UTF-8 编码文件，但也可能是 ISO-8859-1 编码文件的 ï»¿ 字符串。或者，其他的编码体系中的字符。

主流编辑器识别文件编码的方式是通过猜测（即使 file 命令，有时也会给出错误的文件编码提示），所以编辑器里才会由 File Encoding 功能来切换编码的功能。

解决方案：获取文件编码

注意事项：
1）如上所述，工具获取文件编码的方式是通过猜测，因此工具很有可能会返回错误的文件编码，只是可靠的工具返回的结果更加可靠。
2）当工具猜测出编码之后，我们可以尝试使用该编码方式打开文件，以验证猜测结果是正确；

方案一、使用 file 命令

使用 file 命令，可以获取文件编码：

# file Fontconfig_-_fonts.conf.txt 
Fontconfig_-_fonts.conf.txt: text/x-zim-wiki, UTF-8 Unicode text

方案二、使用 enca 命令

# apt-get install -y enca

# enca Fontconfig_-_fonts.conf.txt 
enca: Cannot determine (or understand) your language preferences.
Please use `-L language', or `-L none' if your language is not supported
(only a few multibyte encodings can be recognized then).
Run `enca --list languages' to get a list of supported languages.

# enca --list language
belarusian: CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855 KOI8-U
 bulgarian: CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
     czech: ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
  estonian: ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
  croatian: CP1250 ISO-8859-2 IBM852 macce CORK
 hungarian: ISO-8859-2 CP1250 IBM852 macce CORK
lithuanian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
   latvian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
    polish: ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK
   russian: KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
    slovak: CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
   slovene: ISO-8859-2 CP1250 IBM852 macce CORK
 ukrainian: CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
   chinese: GBK BIG5 HZ
      none:

# enca -L chinese Fontconfig_-_fonts.conf.txt 
Universal transformation format 8 bits; UTF-8

如下示例，file 命令并没有猜测出文件编码，而 enca 文件则返回正确文件编码：

# file './html/gndy/jddy/20201217/60852.html'
./html/gndy/jddy/20201217/60852.html: HTML document, Non-ISO extended-ASCII text, with very long lines, with CRLF line terminators

# enca -L chinese './html/gndy/jddy/20201217/60852.html'
Simplified Chinese National Standard; GB2312
  CRLF line terminators

解决方案：文件编码转换

命令 enconv 支持文件编码转换（与 enca 同时安装），但是我们使用 iconv 命令。

使用 iconv 命令的方法如下：

# iconv -c -f gb2312 -t UTF-8//IGNORE --output='outputfile' 'inputfile'

更多使用方法，参考 man 1 iconv 手册。

参考文献

How to detect the encoding of a file? - Software Engineering Stack Exchange
shell - How to find encoding of a file via script on Linux? - Stack Overflow
text processing - iconv illegal input sequence- why? - Unix & Linux Stack Exchange
utf 8 - wget and encoding. how to force utf-8? - Stack Overflow

内容总结

以上是互联网集市为您收集整理的「Linux」- 识别文件编码、转换文件编码 @20210213全部内容，希望文章能够帮你解决「Linux」- 识别文件编码、转换文件编码 @20210213所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/928199.html

来源：【匿名】

【上一篇】linux文件属性函数【下一篇】Linux下安装GD

更多 ►

【「Linux」- 识别文件编码、转换文件编码 @20210213】教程文章相关的互联网学习教程文章

Linux 下文件名乱码（无效的编码）的解决办法

文件是在WIndows 下创建的,Windows 的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致所以导致了文件名乱码的问题，解决这个问题需要对文件名进行转码。sudo apt-get install convmvconvmv 使用方法：convmv -f 源编码 -t 新编码 [选项] 文件名常用参数：-r 递归处理子文件夹–notest 真正进行操作，默认情况下是不对文件进行真实操作–list 显示所有支持的编码–unescap 可以做一下转义，比如把%2...

linux下查看Mysql默认编码、修改默认编码【代码】【图】

登陆mysql首先，使用命令登陆mysql 如下，截图。查看编码接着，使用命令查看数据库的编码方式。 show variables like ‘character%‘;修改my.cnf文件下面是退出数据库，关闭数据库，修改配置文件。关闭数据库命令如下： service mysqld stop下面修改配置文件：如下图。 vi /etc/my.cnf加入如下代码：[client] default_character_set=utf8 [mysqld] collation_server = utf8_general_ci character_set_server = utf8重启mysql...

Gnu Linux下文件的字符编码及转换工具【代码】

/********************************************************************* * Author : Samson * Date : 07/03/2014 * Test platform: * 3.11.0-12-generic #19-Ubuntu * GNU bash, version 4.2.45 * *******************************************************************/ 在GNU Linux中查看当前文件的编码方式：可以通过vim打开此文件后在控制模式时输入 :set fileencoding 可以查看到当...

linux编码

转：Linux查看文件编码格式及文件编码转换如果你需要在Linux中操作windows下的文件，那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312)，而Linux一般都是UTF-8。下面介绍一下，在Linux中如何查看文件的编码及如何进行对文件进行编码转换。查看文件编码在Linux中查看文件编码可以通过以下几种方式： 1.在Vim 中可以直接查看文件编码Shell代码 :set fileencoding 即可显示文件编码格式。如果你只是...

使用LUIT解决Linux下SSH编码问题【代码】【图】

在公司里经常会维护各种各样的Linux/Unix服务器，所以会经常使用SSH来登陆服务器，同事们全是M$党，所以基本上他们会用SecureCRT，我以前还用过Putty，但是Putty简陋爆了，其实Windows下的XShell才是真正好用的，不过不得不吐槽XShell用VBS来做脚本…… 好啦，下面说正题（好像我每次写东西都喜欢先吐槽一大篇再进入正题），在Linux下使用SSH不用安装任何客户端，基本上都是预装的，只需要在Terminal下面输入ssh即可，但是...

[error handle]Linux下配置mysql的编码【代码】【图】

mysql的默认编码是latin1，对汉字的支持不好，需要编辑配置文件，设置mysql的默认编码。这个过程网上的教程很多，大家可以参考 mysql 修改编码格式MySQL修改编码设置及乱码问题linux下的mysql配置修改途中碰到了好几个坑，真是恶心的不行。坑1，找不到my.cnf文件教程里说linux下mysql配置文件的路径在/etc/my.cnf，然而找不到。百度了一下，说是有可能出现这种情况。囧，有经验的话还可以自己写一个。然而我没经验。控制台...

【转】linux下C语言使用线程池（附带编码）【代码】

原文链接：linux下C语言使用线程池（附带编码） - china_sky - 博客频道 - CSDN.NEThttp://blog.csdn.net/feige2008/article/details/7827390 使用一个东西，我们要明白为什么使用它，如何使用它，使用它能达到什么效果在写本文章时，我也借鉴了网上的部分资源，因为是之前很早搜索到的资料无法追踪源头，所以在此不再写来源，谨感谢各位大神。1 使用线程池的原因通常使用多线程都是在需要的时候创建一个新的线程，然后执行任务...

Linux下MySQL5.6的修改字符集编码为UTF8

修改Linux系统的默认语言编码集

RedHat今天晚上发现服务器上vi的界面提示变成了乱码，只能将XShell的编码改为GBK才能正常显示，导致consolas字体无法使用，GBK编码下的字体丑陋无比，无法忍受，一轮google之后终于发现有人改了/etc/sysconfig/i18n文件，解决方法就是把GB18030改回到UTF-8：root用户下修改/etc/sysconfig/i18n文件，将LANG=zh_CN.GB18030改为LANG="zh_CN.UTF-8"，新用户登录后就界面就是UTF-8编码了，如果改成en_US.UTF-8，vi的提示语言就变成英文...

windows下编写的bash脚本拖入linux环境下脚本出错之编码问题【代码】

windows下编写的bash脚本拖入linux环境下脚本出错之编码问题脚本经常在windows下写好，拖入到linux环境中运行。但是在运行过程中，经常出现编码问题，这里记录一下。方便自己日后查看，或者给刚好遇到这样的问题的同学一个尝试的方法。在linux环境下vim 进入拖入的bash脚本。执行命令：set ff=unix本文出自 “做最好的自己” 博客，请务必保留此出处http://qiaopeng688.blog.51cto.com/3572484/1951374原文：http://qiaope...

Linux RPC中XDR 外部数据编码实例【代码】

网上找了很多XDR编码的内容，但是大多都是介绍相关的，很少有编程实例。因为分布式的课程学习了XDR外部数据编码，并应用在了RPC远程过程调用的实现中。本篇博客先暂时描述XDR相关，下一篇将介绍Socket通信。这一篇博客介绍了XDR的内部实现 http://blog.csdn.net/chdhust/article/details/9004496 ，需要了解实现的可以参考一下。XDR的主要作用就是在不同进程间传递消息参数时，避免因为计算机平台的不一致而导致数据传送接收异常。...

Linux环境下MySQL设置gbk编码【图】

1 编辑mysql配置文件 vi /etc/my.cnf2 创建数据库 CREATE DATABASE `XXX` DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci; 3 在window端导出gbk格式的sql脚本4 linux上执行脚本 mysql> source /home/xxx.sqlLinux环境下MySQL设置gbk编码标签：本文系统来源：http://www.cnblogs.com/zhujinguo/p/4572904.html

Linux下使用MySQL——忘记root密码及修改MySQL默认编码

本博客不再对MySQL的语法进行讲解和说明，想了解或熟悉的朋友请自行百度或Google学习。本博客主要是针对MySQL除语法之外的总结，希望能够也能帮助到你。1.CentOS6.x下MySQL忘记root密码解决方法 Ⅰ. 修改MySQL的登录设置 # vim /etc/my.cnf 在[mysqld]段中加上一句：skip-grant-tables Ⅱ. 重启服务 # service mysqld restart Ⅲ. 登录Mysql，修改密码信息 # mysql mysql> USE mysql; mysql> UPDATE user SET Password...

Linux学习之CentOS(二十)--CentOS6.4下修改MySQL编码方法【代码】【图】

例如我们可以通过 SHOW VARIABLES LIKE ‘%character%‘ 命令来查看数据库的编码：我们可以看到在安装了mysql后，默认的数据库编码方式基本都设置成了latin1的编码方式，此时我们需要将其修改成utf8的编码格式。下面是在CentOS6.4环境下修改配置文件，其他Linux发行版本该配置文件的位置可能不同，但是改变的内容是一样的 1.首先我们要找到mysql的主配置文件，然后将其复制到 /etc 目录下[root@xiaoluo ~] cp /usr/share/doc/my...

Linux mysql设置表名不区分大小写，设置编码

.73]# cp /usr/share/doc/mysql-server-5.1.73/my-large.cnf /etc/my.cnf cp: overwrite `/etc/my.cnf‘? y [root@localhost mysql-server-5.1.73]# vim /etc/my.cnf----------# Example MySQL config file for large systems. # # This is for a large system with memory = 512M where the system runs mainly # MySQL. # # MySQL programs look for option files in a set of # locations which depend on the deployment pla...

LINUX - 最热教程

Xrdp - 通过Windows的RDP连接Linux远程...VMware中Linux虚拟机挂载主机共享文件夹...Linux双网卡配置虚拟机下Linux安装好Nginx后，宿主机无...linux下安装postgresql并配置远程图形桌...Linux命令--exportfs命令详解 linux 终端printf打印显示乱码问题修正 Linux下Shell的for循环语句N种写法 Linux下创建nginx脚本-start、stop、re...SUSELinux安装MySQL

首页 / LINUX / 「Linux」- 识别文件编码、转换文件编码 @20210213

「Linux」- 识别文件编码、转换文件编码 @20210213

内容导读

内容图文

问题描述

问题原因

解决方案：获取文件编码

方案一、使用 file 命令

方案二、使用 enca 命令

解决方案：文件编码转换

参考文献

内容总结

内容备注

内容手机端

【「Linux」- 识别文件编码、转换文件编码 @20210213】教程文章相关的互联网学习教程文章

Linux 下文件名乱码（无效的编码）的解决办法

linux下查看Mysql默认编码、修改默认编码【代码】【图】

Gnu Linux下文件的字符编码及转换工具【代码】

linux编码

使用LUIT解决Linux下SSH编码问题【代码】【图】

[error handle]Linux下配置mysql的编码【代码】【图】

【转】linux下C语言使用线程池（附带编码）【代码】

Linux下MySQL5.6的修改字符集编码为UTF8

修改Linux系统的默认语言编码集

windows下编写的bash脚本拖入linux环境下脚本出错之编码问题【代码】

Linux RPC中XDR 外部数据编码实例【代码】

Linux环境下MySQL设置gbk编码【图】

Linux下使用MySQL——忘记root密码及修改MySQL默认编码

Linux学习之CentOS(二十)--CentOS6.4下修改MySQL编码方法【代码】【图】

Linux mysql设置表名不区分大小写，设置编码

LINUX - 相关标签

文件 - 相关标签

LINUX - 最新教程

LINUX - 最热教程