什么是什么是UnicodeUTF-8

编码的要求不是很高，所以我们不了解Unicode UTF-8多。
最近，有机会转为UTF-8的文章，感觉很复杂，这是一个简单和容易理解。

首先，解释目前使用的一些常用编码方案：
1，在中国，最常用的是在中国的gbk18030编码，除了GB2312，GBK，这些代码之间的关系是如此。
最早的汉字编码是GB2312，包括6763个汉字和682个其他符号
95年来，代码进行了改造，命名为gbk1.0，共21886个符号都包括在内。
gbk18030编码的介绍后，共包含27484个汉字，还包括藏族、蒙古族、Uygur等少数民族语言为主，现在的Windows平台需要支持gbk18030编码。

在gbk18030，GBK，秩序和GB2312，3码是向下兼容，和相同的汉字是相同的代码在三编码方案。

2、台湾、香港等地使用BIG5编码
3、日本：SJIS编码

如果各种文字代码都被描述为方言，那么Unicode是世界各国合作和发展的一种语言。
在这种语言环境中，将不再存在语言的编码冲突。它可以在同一屏幕下显示任何语言内容，这是Unicode最大的优点。

那么Unicode是如何编码的呢这很简单。
它是用2个字节编码世界上所有的单词。也许你会问，2个字节最多能代表65536个码，够吗
大多数在韩国和日本从中国汉字的传播，和人物都是完全相同的。
例如，字，GBK和SJIS是相同的汉字，但是他们在编码不同。
这样，2字节就足以容纳世界上大部分的语言。

Unicode名称是通用多八位编码字符集
现在，UCS-2使用，即2个字节，和UCS-4是为了防止接下来的2个字节被developed.ucs-2也被称为基本多文种平面。
转换为UCS-4 UCS-2仅仅是0前两个字节。
UCS-4主要用于存储辅助平面，如在Unicode 4第二辅助平面
20000-20fff - 21000-21fff - 22000-22fff - 23000-23fff - 24000-24fff - 25000-25fff - 26000-26fff - 27000-27fff - 28000-28fff - 29000-29fff - 2a000-2afff - 29000-29fff
总共增加了16架辅助飞机，从原来的65536架增加到近100万架。

既然代码是统一的，我如何才能与国家的原始代码兼容呢
代码页是需要在这个时候。
代码页是什么代码页是文本在每一个国家的编码和Unicode之间的映射表。
例如，简体中文和Unicode的映射表cp936，指出官方的映射表在这里。

以下是几种常用的代码，并对上述地址相应数量的变化可以。
代码= 936简体中文GBK
代码= 950繁体BIG5
代码= 437美国/加拿大英语
代码= 932日
代码= 949 Han Wen
代码= 866俄罗斯
代码= 65001 Unicode UFT-8

最后65001个，根据个人的理解，应该是一个虚拟映射表，它只是一个算法。

例如，从936随机地行一行：
0x9993 0x6abd # CJK统一汉字
前面的编码是GBK编码，其次是Unicode。
看这个表，GBK和Unicode之间的转换可以实现简单。

现在了解Unicode，那么什么是UTF-8为什么UTF-8

ASCII码转换为UCS-2，只是插入一个0x0前代码。使用这些代码，会有一些控制，如或 /，这将导致严重的错误和一些Unix C的功能。因此，可以肯定的是，UCS-2不适合外部编码Unicode。

所以，UTF-8出生。如何是UTF-8编码的如何解决UCS-2的问题吗

例：
E4 BD A0 1110010010111101 10100000
这是你的UTF-8编码
4F 600100111101100000
这是Unicode码。

根据UTF-8的编码规则，分解如下：xxxx0100 xx111101 xx100000
拼接X以外的数字一起成为你的Unicode码。
注意第一3 1 UTF-8，表明整个UTF-8字符串是由3个字节。
UTF-8编码后，将不再有敏感字符，因为最高级别是1。

以下是Unicode和UTF-8之间的转换表：
u- 00000000 u- 000000号7F：0xxxxxxx
u- 000000 80 u- 00000 7ff：110xxxxx 10xxxxxx
u- 00000 800 u-0000ffff：1110xxxx 10xxxxxx 10xxxxxx
u-00010000 - u-001fffff：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
u-00200000 - u-03ffffff：11111 0xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
u-04000000 - u-7fffffff：111111 0X 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicode编码转换为UTF-8，它集Unicode字节流到X成UTF-8。