首页 / JAVA / java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别

java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3100字，纯文字阅读大概需要5分钟。

内容图文

java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别

在平常工作中使用到char和byte的场景不多，但是如果项目中使用到IO流操作时，则必定会涉及到这两个类型，下面让我们一起来回顾一下这两个类型吧。

char和byte的对比

byte

byte 字节，数据存储容量1byte，byte作为基本数据类型表示的也是一个存储范围上的概念，有别于int、long等专门存数字的类型，这种类型的大小就是1byte,而int是4byte。存数字的话就是1byte=8位，2^8=256 即-128-127。字符的话包括字母和汉字，一个字母是1byte，一个汉字2byte。也就是可以用byte变量去存储一个英文字符，但是却存不下一个中文汉字，因为一个汉字占2byte。总结，byte是java中的一个基本数据类型，这个数据类型的长度是1byte，此byte就是彼byte,即是基本数据类型也是存储空间的基本计量单位。

char

char是Java中的保留字，与别的语言不同的是，char在Java中是16位的，因为Java用的是Unicode。不过8位的ASCII码包含在Unicode中，是从0~127的。 Java中使用Unicode的原因是，Java的Applet允许全世界范围内运行，那它就需要一种可以表述人类所有语言的字符编码。Unicode。 char本质上是一个固定占用两个字节的无符号正整数，这个正整数对应于Unicode编号，用于表示那个Unicode编号对应的字符。由于固定占用两个字节，char只能表示Unicode编号在65536以内的字符，而不能表示超出范围的字符。

Unicode和UTF-8的对比

Unicode

需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。比如，汉字"严"的unicode是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。这里就有两个严重的问题，第一个问题是，如何才能区别Unicode和ASCII？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。它们造成的结果是：1）出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。2）Unicode在很长一段时间内无法推广，直到互联网的出现。

UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。以utf8为例，utf8是一个变长编码标准，可以以1~4个字节表示一个字符，而中文占3个字节，ascII字符占1个字节。为什么我们在java里面可以用一个char来表示一个中文呢？因为java是以unicode作为编码方式的。unicode是一个定长的编码标准，每个字符都是2个字节，也就是1个char类型的空间。在编译时会把utf8的中文字符转换成对应的unicode来进行传输运算。 ? 示例代码

package com.lingyejun.io;

import java.io.UnsupportedEncodingException;

/**
 * Created by Lingye on 2018/9/28 14:34
 */
public class ChineseCharCode {

    public static void main(String[] args) {
        String str = "中";
        char c = '中';
        // java使用unicode编码，一个字符占两个字节
        System.out.println("char字符 中 二进制"+Integer.toBinaryString(c));
        try {
            // UTF-8是Unicode的实现方式之一
            System.out.println(str.getBytes("UTF-8").length);
            // UTF-16也是Unicode的实现方式之一，但使用较少
            System.out.println(str.getBytes("UTF-16").length);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
    }
}

java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别 - 文章图片

内容总结

以上是互联网集市为您收集整理的java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别全部内容，希望文章能够帮你解决java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/854300.html

来源：【匿名】

【上一篇】Java并发：线程间数据传递和交换【下一篇】JAVA/JSP学习系列之五

更多 ►

【java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别】教程文章相关的互联网学习教程文章

Java用native2ascii命令做unicode编码转换

背景：在做Java开发的时候，常常会出现一些乱码，或者无法正确识别或读取的文件，比如常见的validator验证用的消息资源（properties）文件就需要进行Unicode重新编码。原因是java默认的编码方式为Unicode，而我们的计算机系统编码常常是GBK等编码。需要将系统的编码转换为java正确识别的编码问题就解决了。　　1、native2ascii简介：native2ascii是sun java sdk提供的一个工具。用来将别的文本类文件（比如*.txt,*.ini,*.propertie...

java: 非法的 Unicode 转义【代码】

问题描述 BaseDao.java/*** update()方法用来执行：Insert\update\Delete语句* @return 如果返回-1，说明返回失败，返回其他表示影响的行数*/public int update(String sql, Object... args) {Connection connection = JdbcUtils.getConnection();try {return queryRunner.update(connection, sql, args);} catch (SQLException e) {e.printStackTrace();} finally {JdbcUtils.close(connection);}return -1;}UserDaoTest.java@Tes...

小师妹学JavaIO之:文件编码和字符集Unicode【代码】

文章目录简介使用Properties读取文件乱码初现字符集和文件编码解决Properties中的乱码真.终极解决办法总结简介小师妹一时兴起，使用了一项从来都没用过的新技能，没想却出现了一个无法解决的问题。把大象装进冰箱到底有几步？乱码的问题又是怎么解决的？快来跟F师兄一起看看吧。更多精彩内容且看：区块链从入门到放弃系列教程-涵盖密码学,超级账本,以太坊,Libra,比特币等持续更新Spring Boot 2.X系列教程:七天从无到有掌握Spring B...

【转】Java中弄懂Unicode和UTF-8编码方式【代码】【图】

原文链接：https://blog.csdn.net/qq_22771739/article/details/84261165 1.Unicode Unicode 是全球文字统一编码。它把世界上的各种文字的每一个字符指定唯一编码，实现跨语种、跨平台的应用。 Unicode 只是一个符号集，它只规定了每个符号的二进制数，却没有规定这个二进制数应该如何存储。比如，汉字‘严’的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。...

java制作unicode代码在excel中批量导入图片【代码】【图】

如何在excel中批量导入图片问题场景：在工作中我们很可能遇到需要往EXCEL中批量导入图片的情况，制作产品图册制作花名册原理：利用Excel中的图片导入代码 <table><img src='I:\files\公司\图片\2017后\JPG\JPEG总集\2059.jpg'width='245'height='160'>那么我们只需要批量生成此串代码即可此处我i们j将会用到java语言进行操作，代码如下 import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; impor...

Java的char是16位的unicode类型【代码】

Java的char是16位的unicode类型，中文也是，两个字节，但是如果用utf-8(一般系统默认)读取或者转换为字节数组，就会变成3个字节。 Unicode是字符集，UTF-8/UTF-16是编码规则，或者广义的Unicode就包括字符集和多种编码规则。也就是说字符集规定了每个字符的二进制代码，编码规则才规定了如何存储这些二进制代码。然后utf-16有个大端序(Big Endian order)和小端序(Little Endian order)的问题(utf-8的更复杂，所以这也是最好不要在...

Scala/Java正则匹配中去掉unicode的空格符【代码】【图】

Scala正则匹配中去掉unicode的空格符在Scala做数据清洗的时候，用str.replaceAll("\\s+","")的时候有些看不见的字符并不能够被清除掉,比如说 // scala代码: 160.toChar //普通的英文半角空格 12288.toChar //中文空格unicode 8194.toChar //半个中文宽度空格 8195.toChar //一个中文宽度的空格 8196.toChar //四分之一个中文宽度 ... //等等还有其它的，我没有收集到下面如果有一句话我要用\\s+去掉的话里面的一些空白字...

java字符编码-Unicode编码问题刨根究底【代码】

博客搬家: java字符编码问题前段时间在读《java核心技术卷一》，遇到一些名词：码点、代码单元等，其实字面意思不难理解，解释如下码点(code point)：Unicode编码表中某个字符对应的代码值代码单元(code unit)：用于UTF-16编码的最小单元，16个bit注意上述只是针对java中字符和字符串的Unicode+UTF-16机制的解释。若是其他编码方式就另说，如UTF-8的代码单元是用8个bit编码。下面问题来了书中建议，尽量不要使用char类型，最好将...

java-JSF和HTML表单的Unicode问题？【代码】

我有一个由JSF生成的HTML表单,该表单将输入元素映射到bean setter在我看来,JSF正在将Unicode输入加为非法.特别是,我在setter中放置了以下异常以进行测试public void setTitle(String title){System.out.println("title set with: "+title+"\n");if (title.startsWith("xxx")) {throw new RuntimeException("debug exception "+title);}this.title = title; }然后,将以下文本放入表单标题输入元素：“ xxxx海陆”.然后,当我提交表格...

Java中的Unicode感知CSV解析器

我正在寻找具有正确处理Unicode数据的CSV(逗号分隔值)解析器的Java实现,例如具有中文文本的UTF-8 CSV文件.我想这样的解析器在迭代,比较等过程中应该在内部使用与代码点相关的方法.Apache 2许可证或类似的许可证将是最好的.解决方法:我不相信重新发明轮子.因此,我不想编写自己的解析器并遇到其他人同样的头痛. 我个人喜欢Ostermiller的CSV解析器.如果感兴趣的话,他们也有Maven信息库. 您也可以签出OpenCSV.已经有堆栈溢出question关...

java-JsonReader错误地转换unicode字符【代码】

我正在构建一个Android应用程序,并且我有包含Unicode字符串的JSON数据.接收数据并使用InputStreamReader解析数据时,Unicode字符串保持良好状态.但是,当我使用JsonReader解析JSON时,它似乎已将其转换为某种格式.我看了一下源代码,似乎并没有做任何与众不同的事情(显然我可能会遗漏一些东西),它只是获取字符串并将其保存到String变量中.有人对为什么我的Unicode字符串转换不正确有任何想法吗？谢谢解决方法:您可以使用InputStreamRe...

Java FTPClient listFiles返回带有Unicode路径的空结果【代码】

我试图从ftp服务器获取列表并有编码问题 FTPClient.listfiles(String path)方法如果路径包含非拉丁字符,则其始终返回空数组. (我也使用带有python和perl脚本的服务器,也使用unicode-并且没有类似的问题) 请帮助解决此问题. 这种与调试输出连接的方法：public static FTPClient ftpConnect(String host, String login, String password) throws IOException {FTPClient ftp = new FTPClient();FTPClientConfig config = new FTPCli...

在Java框架中设置Unicode字符【代码】

在没有日语语言包的Windows XP m / c中,如何在Java swing中的JFrame标题中显示unicode字符(例如日语)？似乎将标题文本设置为日语unicode字符,而将字体设置为MS Mincho是不够的.这就是您需要做的所有事情以便在Swing标签中显示unicode字符吗？解决方法:“没有日语包”？看来您必须至少有download the language font …The font is the only thing that needs to be installed on your client machine to run the application. Usi...

java-IntelliJ IDEA-双引号和字母更改为Unicode字母

我在IntelliJ中遇到一个奇怪的问题,每当我输入双引号时,它将自动转换为3个双引号,或者有时将其转换为某些Unicode字母. 例如,如果我在“之后”输入A,则文本将变为图像中所示的内容.我正在使用macOS 10.13 High Sierra.提前致谢解决方法:我有同样的问题,问题不在于IntelliJ IDEA,而在于MacOS上的键盘输入源. 问题原因：我在MacOS上使用“美国国际-PC”键盘.当我将其更改为“美国”时问题不见了. 解决问题的步骤： >进入系统偏好设置-...

用java写Unicode(Sindhi)的keyListener实现的问题【代码】

我想以这种方式通过在jTextField上实现keyListener来使用unicode：textField.addKeyListener(new KeyListener() {@Overridepublic void keyTyped(KeyEvent evt) {// TODO Auto-generated method stub}@Overridepublic void keyReleased(KeyEvent arg0) {// TODO Auto-generated method stub}@Overridepublic void keyPressed(KeyEvent evt) {// TODO Auto-generated method stubchar var = evt.getKeyChar();if(var == 'a'){String...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别

java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别

内容导读

内容图文

char和byte的对比

byte

char

Unicode和UTF-8的对比

Unicode

UTF-8

内容总结

内容备注

内容手机端

【java基础类型中的char和byte的辨析及Unicode编码和UTF-8的区别】教程文章相关的互联网学习教程文章

Java用native2ascii命令做unicode编码转换

java: 非法的 Unicode 转义【代码】

小师妹学JavaIO之:文件编码和字符集Unicode【代码】

【转】Java中弄懂Unicode和UTF-8编码方式【代码】【图】

java制作unicode代码在excel中批量导入图片【代码】【图】

Java的char是16位的unicode类型【代码】

Scala/Java正则匹配中去掉unicode的空格符【代码】【图】

java字符编码-Unicode编码问题刨根究底【代码】

java-JSF和HTML表单的Unicode问题？【代码】

Java中的Unicode感知CSV解析器

java-JsonReader错误地转换unicode字符【代码】

Java FTPClient listFiles返回带有Unicode路径的空结果【代码】

在Java框架中设置Unicode字符【代码】

java-IntelliJ IDEA-双引号和字母更改为Unicode字母

用java写Unicode(Sindhi)的keyListener实现的问题【代码】

UNICODE - 相关标签

JAVA - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程