首页 / CSS / 什么是Unicode,什么是UTF-8

什么是Unicode,什么是UTF-8

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了什么是Unicode,什么是UTF-8，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3512字，纯文字阅读大概需要6分钟。

内容图文

一直在编码方面要求不是很高，所以对Unicode和UTF-8也不甚了解。最近偶然翻到一篇UTF-8的文章，感觉解释的非常繁杂，因此才想到重新写一篇简单易懂一点的。

首先说明一下现在常用的一些编码方案：

１、在中国，大陆最常用的就是GBK18030编码，除此之外还有GBK，GB2312，这几个编码的关系是这样的:

最早制定的汉字编码是GB2312，包括6763个汉字和682个其它符号；95年重新修订了编码，命名GBK1.0，共收录了21886个符号。之后又推出了GBK18030编码，共收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字，现在WINDOWS平台必需要支持GBK18030编码。

按照GBK18030、GBK、GB2312的顺序，３种编码是向下兼容，同一个汉字在三个编码方案中是相同的编码。

２、台湾，香港等地使用的是BIG5编码

３、日本：SJIS编码

如果把各种文字编码形容为各地的方言，那么Unicode就是世界各国合作开发的一种语言。

在这种语言环境下，不会再有语言的编码冲突，在同屏下，可以显示任何语言的内容，这就是Unicode的最大好处。

那么Unicode是如何编码的呢？其实非常简单：

就是将世界上所有的文字用２个字节统一进行编码。可能你会问，２个字节最多能够表示65536个编码，够用吗？

韩国和日本的大部分汉字都是从中国传播过去的，字型是完全一样的。比如：“文”字，GBK和SJIS中都是同一个汉字，只是编码不同而已。那样，像这样统一编码，２个字节就已经足够容纳世界上所有的语言的大部分文字了。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。
现在用的是UCS-2，即２个字节编码，而UCS-4是为了防止将来２个字节不够用才开发的。UCS-2也称为基本多文种平面。
UCS-2转换到UCS-4只是简单的在前面加２个字节0。
UCS-4则主要用于保存辅助平面，例如Unicode 4.0中的第二辅助平面
20000-20FFF - 21000-21FFF - 22000-22FFF - 23000-23FFF - 24000-24FFF - 25000-25FFF - 　　26000-26FFF - 27000-27FFF - 28000-28FFF - 29000-29FFF - 2A000-2AFFF - 2F000-2FFFF
总共增加了16个辅助平面，由原先的65536个编码扩展至将近100万编码。

那么既然统一了编码，如何兼容原先各国的文字编码呢？

这个时候就需要codepage了。

什么是codepage？codepage就是各国的文字编码和Unicode之间的映射表。比如简体中文和Unicode的映射表就是CP936。

以下是几个常用的codepage，相应的修改上面的地址的数字即可：

codepage=936 简体中文GBK
codepage=950 繁体中文BIG5
codepage=437 美国/加拿大英语
codepage=932 日文
codepage=949 韩文
codepage=866 俄文
codepage=65001 unicode UFT-8

最后一个65001，据个人理解，应该只是一个虚拟的映射表，实际只是一个算法而已。

从936中随意取一行，例如：

0x9993 0x6ABD #CJK UNIFIED IDEOGRAPH
前面的编码是GBK的编码，后面的是Unicode。
通过查这张表，就能简单的实现GBK和Unicode之间的转换。

现在明白了Unicode，那么UTF-8又是什么呢？又为什么会出现UTF-8呢？

ASCII转换成UCS-2，只是在编码前插入一个0x0。用这些编码，会包括一些控制符，比如或 /，这在UNIX和一些C函数中，将会产生严重错误。因此可以肯定，UCS-2不适合作为Unicode的外部编码。

因此，才诞生了UTF-8。那么UTF-8是如何编码的？又是如何解决UCS-2的问题呢？

例：

E4 BD A0　　　　　　　　11100100 10111101 10100000
这是“你”字的UTF-8编码

4F 60　　　　　　　　　　01001111 01100000
这是“你”的Unicode编码

按照UTF-8的编码规则，分解如下：xxxx0100 xx111101 xx100000
把除了x之外的数字拼接在一起，就变成“你”的Unicode编码了。
注意UTF-8的最前面３个1，表示整个UTF-8串是由３个字节构成的。
经过UTF-8编码之后，再也不会出现敏感字符了，因为最高位始终为1。

以下是Unicode和UTF-8之间的转换关系表：
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicode编码转换到UTF-8,简单的把Unicode字节流套到x中就变成UTF-8了。

内容总结

以上是互联网集市为您收集整理的什么是Unicode,什么是UTF-8全部内容，希望文章能够帮你解决什么是Unicode,什么是UTF-8所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/415447.html

来源：【匿名】

【上一篇】会移动的文字(Marquee)_经验交流【下一篇】php无法调用css怎么办

更多 ►

【什么是Unicode,什么是UTF-8】教程文章相关的互联网学习教程文章

Css中常用中文字体的Unicode编码对照

在网页制作中，最常用的恐怕是字体属性了，在调整页面兼容的时候，也常常发现字体名称的原因导致不兼容或乱码，下面给出几种常用字体的ucicode编码对照，方便使用。宋体SimSun\5B8B\4F53黑体SimHei\9ED1\4F53微软雅黑Microsoft YaHei\5FAE\8F6F\96C5\9ED1微软正黑体Microsoft JhengHei\5FAE\x8F6F\6B63\9ED1\4F53新宋体NSimSun\65B0\5B8B\4F53新细明体PMingLiU\65B0\7EC6\660E\4F53细明体MingLiU\7EC6\660E\4F53标楷体DFKai-SB\680...

CSSunicode-range特定字符使用font-face自定义字体【图】

一、unicode-range是什么？一看名称，很多小伙伴可能认为是个什么生僻的东西，实际上，这玩意只是名字怪怪的，功能关键时刻还是很管用的。unicode-range是一个CSS属性，一般和@font-face规则一起使用。大家应该不赶时间吧，那我们一点一点往下深入，现在很多网站会使用微软雅黑字体，但是，微软雅黑的名称有点长：.font {font-family: microsoft yahei; }如果这个字体不是全局的，每次用到都要写一遍都很烦。虽然说，现在Sass, Les...

utf8和unicode编码究竟是什么关系？有何区别?_基础教程

UTF8 == Unicode Transformation Format -- 8 bit 是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。 UTF8流的转换程序： Input: unsigned integer c - the code point of the character to be encoded （输入一个unicode值） Output: byte b1, b2,b3, b4 - the encoded sequence of bytes (输出四个BYTE值） Algorithm（算法）: if (cb1 = c>>0 & 0x7F | 0x00 b2 = null b3 = null b4 = null else if (cb1 = c>>...

常用CSS中文字体Unicode编码表_html/css_WEB-ITnose

为什么要在CSS中设置字体用字体 Unicode 编码　　在 CSS 中设置字体名称，直接写中文是可以的。但是在文件编码（GB2312、UTF-8 等）不匹配时会产生乱码的错误。为此，在 CSS直接使用 Unicode 编码来写字体名称可以避免这些错误。使用 Unicode 写中文字体名称，浏览器是可以正确的解析的。例如：font-family:"\5FAE\8F6F\96C5\9ED1"，表示设置字体为“微软雅黑”。 Unicode 编码中文字体转换对照表　中文名英文...

web前端-常见中文字体在CSS中的Unicode编码_html/css_WEB-ITnose

一，常见中文字体在CSS中的Unicode编码新细明体: \65b0\7ec6\660e\4f53 细明体: \7ec6\660e\4f53 标楷体: \6807\6977\4f53 黑体: \9ed1\4f53 宋体: \5b8b\4f53 新宋体: \65b0\5b8b\4f53 仿宋: \4eff\5b8b 楷体: \6977\4f53 仿宋_gb2312: \4eff\5b8b_gb2312 二，例如：font-family:’ \5b8b\4f53’;

常用中文字体Unicode编码_html/css_WEB-ITnose

各大网站的字体选择网站字体腾讯 font: 12px "宋体","Arial Narrow",HELVETICA; 淘宝 font: 12px/1.5 tahoma,arial,Hiragino Sans GB,\5b8b\4f53,sans-serif; 蘑菇街 font: 12px/1.6 tahoma,arial,sans-serif; SegmentFault font-family: "Helvetica Neue",Helvetica,"Trebuchet MS",Arial,sans-serif; 常...

cssunicode-bidi属性怎么用【图】

unicode-bidi属性定义及用法1、在css中，unicode-bidi属性是用来设置或返回文本是否被重写，以便在同一文档中支持多种语言，一般都会与direction属性一起使用。2、unicode-bidi和direction属性决定了网页中文本方向，两个属性一起使用可以用来改变文字的书写顺序。相关属性text-align属性：定义元素中的文本的水平对齐方式direction属性：定义元素的文本方向unicode-bidi属性值normal：不使用附加的嵌入层面，原来是什么顺序就使用...

css中关于direction与unicode-bidi的对比

在做多语言页面，接触过阿利伯语、希伯来语的同学肯定了解书写方向的重要性，包括我们五四运动前的书写顺序也是从右到左的。css中 unicode-bidi和direction属性决定了HTML或XML文字渲染方向，两个属性结合使用可以改变文字书写顺序directiondirection属性有三个值inherit 使用父元素的设置ltr 默认值，left to right，从左到右rtl right to left 从右到左我们默认的书写顺序是从左到右的，不用做特殊设置，但是对于阿拉伯语是从右到...

cssunicode-bidi属性的应用和含义

unicode-bidi设置与双向算法相关的嵌入语法： unicode-bidi : normal | bidi-override | embed参数： normal : 　对象不打开附加的嵌入层，对于内联要素，隐式重排序跨对象边界进行工作embed : 　对象打开附加的嵌入层，direction属性的值指定嵌入层，在对象内部进行隐式重排序bidi-override : 　严格按照direction属性的值重排序。忽略隐式双向运算规则说明：用于同一个页面里存在从不同方向读进的文本显示。与direction属性...