笨办法学python3代码练习ex23.py 字符串字节串字符编码
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了笨办法学python3代码练习ex23.py 字符串字节串字符编码,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1938字,纯文字阅读大概需要3分钟。
内容图文
![笨办法学python3代码练习ex23.py 字符串字节串字符编码](/upload/InfoBanner/zyjiaocheng/1126/532e64d630d8407abead6fa6419e0019.jpg)
首先简单说一下字符编码的问题。平常遇到比较多的就是ASCII码(全称:美国信息交换标准码)。ASCII码使用一个字节(8位)来表示一些常见的数字、英文字母以及一些控制字符。英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如中文汉字就无法用ASCII来表示和编码。为了对世界上的各种语言符号进行统一的编码,于是发明了Unicode。Unicode将世界上所有的文字符号都纳入其中。每一个符号都给予一个独一无二的编码,这就是Unicode。就像它的名字都表示的,这是一种所有符号的编码。需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。
Unicode的问题:
- 第一个问题是,如何才能区别Unicode和ASCII?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?
- 第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果Unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是0,这对于存储来说是极大的浪费,文本文件的大小会因此大出二三倍,这是无法接受的。
UTF-8:互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。
UTF-8的编码规则很简单,只有二条:
- 对于单字节的符号,字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
- 对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的Unicode码。
举例如下:
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
ex23.py
1 import sys 2 scripts, encoding, error = sys.argv 3 4 5def main(language_file, encoding, errors): #自己定义main函数 6 line = language_file.readline() 7if line: 8 print_line(line,encoding,errors) #函数定义在下面 9return main(language_file,encoding,errors) 1011def print_line(line, encoding, errors): 12 next_lang = line.strip() #去除字符串开头和结尾指定的字符13 raw_bytes = next_lang.encode(encoding, errors = errors) 14 cooked_string = raw_bytes.decode(encoding, errors = errors) 1516print(raw_bytes, "<===>", cooked_string) 171819#打开文件,同时指定文件的编码方式20 languages = open("languages.txt", encoding = "utf-8") 2122#调用自己定义main函数23 main(languages, encoding, error)
做这个练习需要下载一个languages.txt文件。可以百度下载,页可以直接用百度网盘下载。链接:https://pan.baidu.com/s/1_f2-sLYAwZA8xy6zTedDWg 提取码:9tgy
执行代码方式: python ex23.py utf-8 strict
最后说明一下: 本人使用的是win7 64位旗舰版系统,支持utf-8编码方式。
原文:https://www.cnblogs.com/lsc666js/p/13359875.html
内容总结
以上是互联网集市为您收集整理的笨办法学python3代码练习ex23.py 字符串字节串字符编码全部内容,希望文章能够帮你解决笨办法学python3代码练习ex23.py 字符串字节串字符编码所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。