2016 - 2024

感恩一路有你

字符编码ascii unicode字符集是unicode联盟开发的一种多少位字符编码标准?

浏览量:1133 时间:2021-03-11 05:00:34 作者:admin

unicode字符集是unicode联盟开发的一种多少位字符编码标准?

最初的Unicode编码是固定长度的,16位,即表示一个字符的两个字节,因此总共可以表示65536个字符。显然,这还不足以用各种语言来表示所有字符。unicode4.0规范考虑了这种情况,并定义了一组附加字符代码。附加字符代码由两个16位表示,因此最多可以定义1048576个附加字符。目前,Unicode 4.0中只定义了45960个附加字符。

Unicode只是一种编码规范。目前,Unicode编码只有三种:UTF-8、ucs-2和UTF-16。这三种Unicode字符集可以根据规范进行转换。

unicode字符集是unicode联盟开发的一种多少位字符编码标准?

Unicode代码扩展自ASCII字符集。在严格的ASCII中,每个字符由7位或8位宽表示,这在计算机上是常用的,而Unicode使用完整的16位字符集。这使得Unicode能够表示字符、象形文字和其他符号,这些符号可以用世界上所有的书写语言进行计算机通信。Unicode最初是作为ASCII的补充,如果可能的话,最终将取代它。考虑到ASCII是计算机中最主要的标准,这确实是一个很高的目标。

Unicode影响到计算机行业的每一个部分,但对操作系统和编程语言的影响可能最大。这样,我们就在路上了。windowsnt从底层支持Unicode。

目前,计算机中使用最广泛的字符集及其编码是美国国家标准局(ANSI)开发的美国信息交换标准码(ASCII)。它已被国际标准化组织(ISO)定为国际标准,称为iso646标准。适合所有拉丁字母,ASCII码有7位码和8位码。

Unicode中只有一个字符集。在Unicode中,中文、日文和韩文字符占据0x3000到0x9fff的部分。目前,ucs-2在Unicode中得到了广泛的应用,它将一个字符编码为两个字节。例如,汉字“京”的编码是0x7ecf。注意,字符编码通常用十六进制表示。为了区别于十进制,十六进制从0x开始,0x7ecf转换成十个十六进制,是32463,ucs-2用两个字节编码字符,两个字节是16位二进制,2的16次方等于65536,所以ucs-2最多只能编码65536个字符。从0到127编码的字符与ASCII字符相同。例如,字母“a”的Unicode代码是0x0061,十进制是97,而“a”的ASCII代码是0x61,十进制是97。对于汉字编码,实际上Unicode并不能很好地支持汉字。简体中文和繁体中文都有6万或7万个汉字,而ucs-2最多只能代表65536个汉字,超过6万个汉字,因此Unicode只能排除一些不常用的汉字。幸运的是,常用的简体字只有7000多个。为了表示所有的汉字,Unicode还有ucs-4规范,它使用4个字节来编码字符

ASCII是对26个英文字母和一些常用符号进行编码,然后扩展一半。总之,它是一个字节用于编码,大于128的部分是一些特殊符号。但是ASCII不能编码其他任何东西。例如,没有说“中国ASCII码需要2个字符”。ASCII只有一个字节。Unicode足以编码地球上所有的语言,因此它包括所有可以用ASCII表示的语言。Unicode本身只有两个字节。UTF-8、UTF-16等的出现是为了根据不同的应用环境提高整体编码效率。例如,如果一篇文章的大部分是英文的(可以用一个字节来表示),UTF-8更合适。如果文章大部分是中文(需要两个字节),utf-16可能更适合复制当然,Unicode是非常常见的。一般来说,手机上的电子书只能用unode-TXT编码

字符编码ascii 字符编码gbk unicode是几位字符

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。