什么是什么是UnicodeUTF-8

编码的要求不是很高,所以我们不了解Unicode UTF-8多。
最近,有机会转为UTF-8的文章,感觉很复杂,这是一个简单和容易理解。


首先,解释目前使用的一些常用编码方案:
1,在中国,最常用的是在中国的gbk18030编码,除了GB2312,GBK,这些代码之间的关系是如此。
最早的汉字编码是GB2312,包括6763个汉字和682个其他符号
95年来,代码进行了改造,命名为gbk1.0,共21886个符号都包括在内。
gbk18030编码的介绍后,共包含27484个汉字,还包括藏族、蒙古族、Uygur等少数民族语言为主,现在的Windows平台需要支持gbk18030编码。

在gbk18030,GBK,秩序和GB2312,3码是向下兼容,和相同的汉字是相同的代码在三编码方案。

2、台湾、香港等地使用BIG5编码
3、日本:SJIS编码

如果各种文字代码都被描述为方言,那么Unicode是世界各国合作和发展的一种语言。
在这种语言环境中,将不再存在语言的编码冲突。它可以在同一屏幕下显示任何语言内容,这是Unicode最大的优点。

那么Unicode是如何编码的呢这很简单。
它是用2个字节编码世界上所有的单词。也许你会问,2个字节最多能代表65536个码,够吗
大多数在韩国和日本从中国汉字的传播,和人物都是完全相同的。
例如,字,GBK和SJIS是相同的汉字,但是他们在编码不同。
这样,2字节就足以容纳世界上大部分的语言。

Unicode名称是通用多八位编码字符集
现在,UCS-2使用,即2个字节,和UCS-4是为了防止接下来的2个字节被developed.ucs-2也被称为基本多文种平面。
转换为UCS-4 UCS-2仅仅是0前两个字节。
UCS-4主要用于存储辅助平面,如在Unicode 4第二辅助平面
20000-20fff - 21000-21fff - 22000-22fff - 23000-23fff - 24000-24fff - 25000-25fff - 26000-26fff - 27000-27fff - 28000-28fff - 29000-29fff - 2a000-2afff - 29000-29fff
总共增加了16架辅助飞机,从原来的65536架增加到近100万架。

既然代码是统一的,我如何才能与国家的原始代码兼容呢
代码页是需要在这个时候。
代码页是什么代码页是文本在每一个国家的编码和Unicode之间的映射表。
例如,简体中文和Unicode的映射表cp936,指出官方的映射表在这里。

以下是几种常用的代码,并对上述地址相应数量的变化可以。
代码= 936简体中文GBK
代码= 950繁体BIG5
代码= 437美国/加拿大英语
代码= 932日
代码= 949 Han Wen
代码= 866俄罗斯
代码= 65001 Unicode UFT-8

最后65001个,根据个人的理解,应该是一个虚拟映射表,它只是一个算法。

例如,从936随机地行一行:
0x9993 0x6abd # CJK统一汉字
前面的编码是GBK编码,其次是Unicode。
看这个表,GBK和Unicode之间的转换可以实现简单。


现在了解Unicode,那么什么是UTF-8为什么UTF-8

ASCII码转换为UCS-2,只是插入一个0x0前代码。使用这些代码,会有一些控制,如或 /,这将导致严重的错误和一些Unix C的功能。因此,可以肯定的是,UCS-2不适合外部编码Unicode。

所以,UTF-8出生。如何是UTF-8编码的如何解决UCS-2的问题吗

例:
E4 BD A0 1110010010111101 10100000
这是你的UTF-8编码
4F 600100111101100000
这是Unicode码。

根据UTF-8的编码规则,分解如下:xxxx0100 xx111101 xx100000
拼接X以外的数字一起成为你的Unicode码。
注意第一3 1 UTF-8,表明整个UTF-8字符串是由3个字节。
UTF-8编码后,将不再有敏感字符,因为最高级别是1。

以下是Unicode和UTF-8之间的转换表:
u- 00000000 u- 000000号7F:0xxxxxxx
u- 000000 80 u- 00000 7ff:110xxxxx 10xxxxxx
u- 00000 800 u-0000ffff:1110xxxx 10xxxxxx 10xxxxxx
u-00010000 - u-001fffff:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
u-00200000 - u-03ffffff:11111 0xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
u-04000000 - u-7fffffff:111111 0X 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicode编码转换为UTF-8,它集Unicode字节流到X成UTF-8。