数码资讯
PHP详细说明了各种编码集和使用的情况。
选购提示
关注价格、性能、续航、售后和真实使用场景,理性比较后再下单。
字符集是多个字符的集合。字符集有很多种。每个字符集中包含的字符数是不同的。常见的字符集名称是ASCII字符集,GB2312字符集,BIG5字符集,GB 18030字符集Unicode字符集等。为了正确处理各种字符集,计算机需要编码的字符使计算机能够识别和存储各种字符。
汉字的数量很大,也分为简体和繁体两种。计算机最初是根据英语的单字节字符设计的。因此,汉字编码是中文信息传播的技术基础,本文将根据字符集的时间序列讨论几种典型的字符集,选取几种有代表性的汉字集,研究其历史渊源、特点和技术特点。
ASCII字符集
1的起源。名称
美国信息交换标准代码,美国信息交换标准码)是一种基于罗马字母的计算机编码系统。
2。特点
它主要用于显示现代英语和其他西欧语言,它是当今最常用的单字节编码系统,相当于国际标准ISO 646。
三.包含的内容
控制字符:回车键、退格键、开关等。
显示字符:英文和小写字符,阿拉伯数字和西方符号。
4。技术特点
7位(bit)代表一个字符,总共有128个字符。
5.ascii扩展字符集
7位编码字符集只能支持128个字符。为了表示更多的欧洲通用字符,ASCII被扩展。ASCII扩展字符集使用8位(位)来表示一个字符,它有256个字符。
由ASCII扩展字符集扩展成ASCII字符集的符号包括表格符号、计算符号、希腊字母和特殊拉丁符号。
GB2312字符集
1的起源。名称
GB2312又称为GB2312-80字符集。它是用于信息交换的汉字代码集和基本集。它是由中国国家标准总局1981年5月1日发布并实施。
2。特点
GB2312是一个简体中文字符集的中国国家标准汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理的需要。它被广泛应用于中国大陆和新加坡。
三.包含的内容
GB2312包括汉字和通用简化符号、序号、数字、拉丁字母、日文假名、Greek、俄语字母、注音符号和汉语拼音,共7445个图形字符,包括6763个汉字,一年级3755班的两个汉字,3008个汉字;682全角字符包括拉丁语、希腊语,日文平假名和片假名字母、俄语字母,西里尔。
4。技术特点
(1)分区表示为:
GB2312,收集的汉字进行划分,每个区域包含94个汉字或符号表示。这也叫定位代码。
该区包含的字符如下:01-09特殊符号;16-55区是根据一年级拼音;汉字,56-87区两级汉字排序,基/中风;10-15和88-94区域不编码。
(2)双字节表示法
两个字节的第一个字节是第一个字节,下一个字节是第二个字节。习惯称为第一个字节高字节,第二个字节是低字节。
高字节使用0xa1-0xf7(的01-87面积加上0xA0区号),和低字节字节使用0xa1-0xfe(01-94加0xA0)。
5。编码的例子
以GB2312字符集为例,第一个汉字,它的地区代码16和01位点编码的比特数是1601。在大多数计算机程序中,高字节和低字节加0xA0得到程序的汉字处理的代码0xb0a1。计算公式为:0xb0 = 0xA0 + 16 + 1 = 0xA0 0xA1。
BIG5字符集
1的起源。名称
也被称为大五码或五码,1984由台湾信息产业公司和五家软件公司宏碁研究院(宏碁)、头像(神达),埃里森01(零),大众(FIC)的成立,它说五码。
BIG5码的产生,是因为在不同的生产厂家台湾时间推出不同的编码,如IBM ps55,Wang Anma Eten,等,彼此不能兼容;另一方面,台湾政府尚未推出正式的字符编码和中文GB2312编码的中文,是不包括在传统的文本。
2。特点
的BIG5字符集包括13053个汉字,分别在台湾,中国。什么是字符集多次包括相同的两个词:吴(0xa461和0xc94a)、霍(0xdcd1和0xddfc)。
三.字符编码方法
的BIG5码使用双字节存储的方法在两个字节的字编码,第一个字节称为高字节,和第二字节称为低字节,高字节的编码范围0xa1-0xf9,低字节编码范围和0xa1-0xfe 0x40-0x7e。
相应的字符编码类型如下范围:0xa140-0xa3bf为标点符号、希腊字母和特殊符号,除了0xa259-0xa261,双音测量的话:杜洪前hao'ke汾bai'ke沃尔特李0xa440-0xc67e没多少千瓦;然后根据汉字的笔画、部首排序;0xc940-0xf9d5时间使用汉字也。首先根据中风的种类进行根治。
4.big5的局限性
虽然BIG5码包含超过10000个字符,它不考虑社会流通的名字,用在地名的词、方言词、化学和生物等,不含日本平假名和片假名字母。
例如,台湾认为变异的书写变异,所以没有个性。字典中的一些激进的话(如康熙,头,本博,等),常见的名字(如坤,Xuan,Pak Zhe,等)还不包括在BIG5。
GB18030字符集
1的起源。名称
GB 18030是GB18030-2000汉字编码字符集基本集的扩充信息交换的全名
2。特点
GB 18030字符集标准的引入得到了广泛的参与和论证。先后由国内外知名信息技术公司、信息产业部和原国家质量技术监督局联合实施。
GB 18030标准字符集解决汉字,日本的假名文字,韩国和中国的少数民族语言组成的一组计算机编码问题。标准的字符编码150万多个编码的总空间,包含27484个汉字,覆盖中国、日本、韩国和中国少数民族语言的信息来满足中国,。要求香港、台湾、日本和韩国等东亚交流,多语种的字符数量、综合、统一的编码格式,兼容Unicode 3版本的Unicode字符,填补词汇统一汉字扩展它与以前的民族兼容的内容Al字符编码标准(GB2312,GB13000.1)。
三.编码方法
GB 18030标准码的三种方式,字符的单字节、双字节、四字节。单字节部分采用0×00到0×7f码(对应的ASCII码)。双字节部分,从0×81到0×铁的第一个字节的代码,尾字节码位为0×40至0×0×80 7E和0×铁,分别。四字节部分采用0 11383 30 0 * 39这是没有使用的GB / T 11383为双字节编码扩展后缀,所以扩展四字节的编码范围是0 81308130,第一位代码,第三个字节是0×81到0×铁,第二,第四字节码位是0×30到0×39。
4。包含的内容
双字节部分包括主要包括GB13000.1 CJK,大约20902的所有汉字和标点符号的表意特征13、汉字的基/组件添加量80,双字节编码的欧元符号。四字节部分包括上述双字节字符,包括在GB 13000.1的所有字符,包括中日韩统一汉字扩展A.
Unicode字符集
1的起源。名称
Unicode通用多八位编码字符集编码字符集编码字节的字符集,从一个财团的Unicode字符编码(Unicode Consortium)机制,交换系统,支持世界各种语言文字的处理和显示,代码是1990,正式宣布在1994。最新版本的Unicode 4.1.0 2005年3月31日。
2。特征
Unicode是一种在计算机上使用的字符编码,它为每种语言中的每个字符设置一个统一的、唯一的二进制编码,以满足跨语言和跨平台的文本转换和处理的要求。
三.编码方法
Unicode标准始终使用十六位数的数字,和前缀u +添加到前面的时候写的,例如,一个字母的编码为004116和字符的编码是20ac16。因此一个编码写入U + 0041。
4.utf-8编码
UTF-8是一种Unicode是used.utf是Unicode转换格式,这意味着将Unicode转换成一种格式。
UTF-8便于不同语言的传输和编码的文本在不同的电脑上,使双字节Unicode对现有的单字节的系统正确传输。
Unicode字符的UTF-8存储可变长度的字节。例如,ASCII字母继续使用1字节存储,重音、希腊字母或西里尔字母以2字节存储,而常用的汉字是3字节。辅助平面字符使用4字节。
5.utf-16和UTF-32编码
UTF-16和UTF-32,UTF-8字符编码的Unicode字符集编码序列,UTF-16使用一个或两个Unicode码的无符号16位编码单元编码;UTF-32每个Unicode代码点被表示为一个相同的32位整数的值。
PHP中各种混沌编码问题的求解
1)使用标签设置页面编码
此标记的功能是声明浏览器的字符集,以便用xxx显示页面。它可以是GB2312,GBK,UTF-8(和MySQL不同,MySQL是UTF8)等。因此,大多数的网页可以用这种方式来告诉浏览器代码,用来显示此页,这样他们不会造成编码错误和产生乱码。但有时我们会发现这句话还没有好的。不管XXX是什么,浏览器总是采用一种代码,稍后我将讨论它。
请注意它是HTML信息,只是一个声明,只显示服务器向浏览器发送HTML信息。
2)标题(内容类型:文本/ HTML;字符集= XXX);
这个函数头的功能()是把信息放在括号中的HTTP头。如果括号中的内容在文中表示,效果基本相同的标签,这是作为第一个相同,但不同的是,如果你有这种功能,浏览器总是使用XXX代码你需要,永远都不听话,所以这个功能是非常有用的。为什么要说HTTP标头和HTML信息之间的差异:
HTTP头是服务器通过HTTP协议向浏览器发送HTML信息的字符串。标签属于HTML信息,所以报头()的内容首先到达浏览器。通俗点就是头()比其他人拥有更高的优先权。如果一个PHP页面标题(内容类型:文本/ HTML;字符集= XXX),和浏览器,只有前者的HTTP头和否认元。当然,这个函数只能用在PHP页面。
还有一个问题。为什么前者起作用后者一点也不。这就是为什么Apache将被讨论下一个原因。
3)adddefaultcharset
在Apache的根目录conf文件夹,那里是整个Apache配置文件httpd.conf。
用文本编辑器打开httpd.conf。第七百零八线(不同的版本可能不同)有adddefaultcharset XXX,XXX是编码名称。这行代码的含义:设置在Web文件的HTTP头在整个服务器的默认字符集的字符XXX。这相当于增加一个线头每文件(内容类型:文本/ HTML;字符集= XXX)。这就是为什么它是明确设置为UTF-8,而浏览器是使用GB2312。
如果你有标题(内容类型:文本/ HTML字符集= xxx)的网页,你改变设置的字符的默认字符集设置,所以这个功能很有用。如果adddefaultcharset XXX前面加个# ),那时的Meta标签工作时间。
下面列出了以下优先事项:
标题(内容类型:文本/ HTML;字符集= XXX)
..adddefaultcharset XXX
..
如果你是一个程序员,建议添加页眉(内容类型:文本/ HTML字符集= XXX)到您的网页的每一页,这样就可以正确显示在任何服务器和便携性。
4)在php.ini中的default_charset配置:
的default_charset =GB2312在php.ini中定义一系列PHP默认的语言特征,它通常是被推荐的注释行,使浏览器可以自动选择语言而不是一种强制性规则根据网页标题的字符集,这样他们就可以在同一台服务器上提供多语种服务。
汉字的数量很大,也分为简体和繁体两种。计算机最初是根据英语的单字节字符设计的。因此,汉字编码是中文信息传播的技术基础,本文将根据字符集的时间序列讨论几种典型的字符集,选取几种有代表性的汉字集,研究其历史渊源、特点和技术特点。
ASCII字符集
1的起源。名称
美国信息交换标准代码,美国信息交换标准码)是一种基于罗马字母的计算机编码系统。
2。特点
它主要用于显示现代英语和其他西欧语言,它是当今最常用的单字节编码系统,相当于国际标准ISO 646。
三.包含的内容
控制字符:回车键、退格键、开关等。
显示字符:英文和小写字符,阿拉伯数字和西方符号。
4。技术特点
7位(bit)代表一个字符,总共有128个字符。
5.ascii扩展字符集
7位编码字符集只能支持128个字符。为了表示更多的欧洲通用字符,ASCII被扩展。ASCII扩展字符集使用8位(位)来表示一个字符,它有256个字符。
由ASCII扩展字符集扩展成ASCII字符集的符号包括表格符号、计算符号、希腊字母和特殊拉丁符号。
GB2312字符集
1的起源。名称
GB2312又称为GB2312-80字符集。它是用于信息交换的汉字代码集和基本集。它是由中国国家标准总局1981年5月1日发布并实施。
2。特点
GB2312是一个简体中文字符集的中国国家标准汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理的需要。它被广泛应用于中国大陆和新加坡。
三.包含的内容
GB2312包括汉字和通用简化符号、序号、数字、拉丁字母、日文假名、Greek、俄语字母、注音符号和汉语拼音,共7445个图形字符,包括6763个汉字,一年级3755班的两个汉字,3008个汉字;682全角字符包括拉丁语、希腊语,日文平假名和片假名字母、俄语字母,西里尔。
4。技术特点
(1)分区表示为:
GB2312,收集的汉字进行划分,每个区域包含94个汉字或符号表示。这也叫定位代码。
该区包含的字符如下:01-09特殊符号;16-55区是根据一年级拼音;汉字,56-87区两级汉字排序,基/中风;10-15和88-94区域不编码。
(2)双字节表示法
两个字节的第一个字节是第一个字节,下一个字节是第二个字节。习惯称为第一个字节高字节,第二个字节是低字节。
高字节使用0xa1-0xf7(的01-87面积加上0xA0区号),和低字节字节使用0xa1-0xfe(01-94加0xA0)。
5。编码的例子
以GB2312字符集为例,第一个汉字,它的地区代码16和01位点编码的比特数是1601。在大多数计算机程序中,高字节和低字节加0xA0得到程序的汉字处理的代码0xb0a1。计算公式为:0xb0 = 0xA0 + 16 + 1 = 0xA0 0xA1。
BIG5字符集
1的起源。名称
也被称为大五码或五码,1984由台湾信息产业公司和五家软件公司宏碁研究院(宏碁)、头像(神达),埃里森01(零),大众(FIC)的成立,它说五码。
BIG5码的产生,是因为在不同的生产厂家台湾时间推出不同的编码,如IBM ps55,Wang Anma Eten,等,彼此不能兼容;另一方面,台湾政府尚未推出正式的字符编码和中文GB2312编码的中文,是不包括在传统的文本。
2。特点
的BIG5字符集包括13053个汉字,分别在台湾,中国。什么是字符集多次包括相同的两个词:吴(0xa461和0xc94a)、霍(0xdcd1和0xddfc)。
三.字符编码方法
的BIG5码使用双字节存储的方法在两个字节的字编码,第一个字节称为高字节,和第二字节称为低字节,高字节的编码范围0xa1-0xf9,低字节编码范围和0xa1-0xfe 0x40-0x7e。
相应的字符编码类型如下范围:0xa140-0xa3bf为标点符号、希腊字母和特殊符号,除了0xa259-0xa261,双音测量的话:杜洪前hao'ke汾bai'ke沃尔特李0xa440-0xc67e没多少千瓦;然后根据汉字的笔画、部首排序;0xc940-0xf9d5时间使用汉字也。首先根据中风的种类进行根治。
4.big5的局限性
虽然BIG5码包含超过10000个字符,它不考虑社会流通的名字,用在地名的词、方言词、化学和生物等,不含日本平假名和片假名字母。
例如,台湾认为变异的书写变异,所以没有个性。字典中的一些激进的话(如康熙,头,本博,等),常见的名字(如坤,Xuan,Pak Zhe,等)还不包括在BIG5。
GB18030字符集
1的起源。名称
GB 18030是GB18030-2000汉字编码字符集基本集的扩充信息交换的全名
2。特点
GB 18030字符集标准的引入得到了广泛的参与和论证。先后由国内外知名信息技术公司、信息产业部和原国家质量技术监督局联合实施。
GB 18030标准字符集解决汉字,日本的假名文字,韩国和中国的少数民族语言组成的一组计算机编码问题。标准的字符编码150万多个编码的总空间,包含27484个汉字,覆盖中国、日本、韩国和中国少数民族语言的信息来满足中国,。要求香港、台湾、日本和韩国等东亚交流,多语种的字符数量、综合、统一的编码格式,兼容Unicode 3版本的Unicode字符,填补词汇统一汉字扩展它与以前的民族兼容的内容Al字符编码标准(GB2312,GB13000.1)。
三.编码方法
GB 18030标准码的三种方式,字符的单字节、双字节、四字节。单字节部分采用0×00到0×7f码(对应的ASCII码)。双字节部分,从0×81到0×铁的第一个字节的代码,尾字节码位为0×40至0×0×80 7E和0×铁,分别。四字节部分采用0 11383 30 0 * 39这是没有使用的GB / T 11383为双字节编码扩展后缀,所以扩展四字节的编码范围是0 81308130,第一位代码,第三个字节是0×81到0×铁,第二,第四字节码位是0×30到0×39。
4。包含的内容
双字节部分包括主要包括GB13000.1 CJK,大约20902的所有汉字和标点符号的表意特征13、汉字的基/组件添加量80,双字节编码的欧元符号。四字节部分包括上述双字节字符,包括在GB 13000.1的所有字符,包括中日韩统一汉字扩展A.
Unicode字符集
1的起源。名称
Unicode通用多八位编码字符集编码字符集编码字节的字符集,从一个财团的Unicode字符编码(Unicode Consortium)机制,交换系统,支持世界各种语言文字的处理和显示,代码是1990,正式宣布在1994。最新版本的Unicode 4.1.0 2005年3月31日。
2。特征
Unicode是一种在计算机上使用的字符编码,它为每种语言中的每个字符设置一个统一的、唯一的二进制编码,以满足跨语言和跨平台的文本转换和处理的要求。
三.编码方法
Unicode标准始终使用十六位数的数字,和前缀u +添加到前面的时候写的,例如,一个字母的编码为004116和字符的编码是20ac16。因此一个编码写入U + 0041。
4.utf-8编码
UTF-8是一种Unicode是used.utf是Unicode转换格式,这意味着将Unicode转换成一种格式。
UTF-8便于不同语言的传输和编码的文本在不同的电脑上,使双字节Unicode对现有的单字节的系统正确传输。
Unicode字符的UTF-8存储可变长度的字节。例如,ASCII字母继续使用1字节存储,重音、希腊字母或西里尔字母以2字节存储,而常用的汉字是3字节。辅助平面字符使用4字节。
5.utf-16和UTF-32编码
UTF-16和UTF-32,UTF-8字符编码的Unicode字符集编码序列,UTF-16使用一个或两个Unicode码的无符号16位编码单元编码;UTF-32每个Unicode代码点被表示为一个相同的32位整数的值。
PHP中各种混沌编码问题的求解
1)使用标签设置页面编码
此标记的功能是声明浏览器的字符集,以便用xxx显示页面。它可以是GB2312,GBK,UTF-8(和MySQL不同,MySQL是UTF8)等。因此,大多数的网页可以用这种方式来告诉浏览器代码,用来显示此页,这样他们不会造成编码错误和产生乱码。但有时我们会发现这句话还没有好的。不管XXX是什么,浏览器总是采用一种代码,稍后我将讨论它。
请注意它是HTML信息,只是一个声明,只显示服务器向浏览器发送HTML信息。
2)标题(内容类型:文本/ HTML;字符集= XXX);
这个函数头的功能()是把信息放在括号中的HTTP头。如果括号中的内容在文中表示,效果基本相同的标签,这是作为第一个相同,但不同的是,如果你有这种功能,浏览器总是使用XXX代码你需要,永远都不听话,所以这个功能是非常有用的。为什么要说HTTP标头和HTML信息之间的差异:
HTTP头是服务器通过HTTP协议向浏览器发送HTML信息的字符串。标签属于HTML信息,所以报头()的内容首先到达浏览器。通俗点就是头()比其他人拥有更高的优先权。如果一个PHP页面标题(内容类型:文本/ HTML;字符集= XXX),和浏览器,只有前者的HTTP头和否认元。当然,这个函数只能用在PHP页面。
还有一个问题。为什么前者起作用后者一点也不。这就是为什么Apache将被讨论下一个原因。
3)adddefaultcharset
在Apache的根目录conf文件夹,那里是整个Apache配置文件httpd.conf。
用文本编辑器打开httpd.conf。第七百零八线(不同的版本可能不同)有adddefaultcharset XXX,XXX是编码名称。这行代码的含义:设置在Web文件的HTTP头在整个服务器的默认字符集的字符XXX。这相当于增加一个线头每文件(内容类型:文本/ HTML;字符集= XXX)。这就是为什么它是明确设置为UTF-8,而浏览器是使用GB2312。
如果你有标题(内容类型:文本/ HTML字符集= xxx)的网页,你改变设置的字符的默认字符集设置,所以这个功能很有用。如果adddefaultcharset XXX前面加个# ),那时的Meta标签工作时间。
下面列出了以下优先事项:
标题(内容类型:文本/ HTML;字符集= XXX)
..adddefaultcharset XXX
..
如果你是一个程序员,建议添加页眉(内容类型:文本/ HTML字符集= XXX)到您的网页的每一页,这样就可以正确显示在任何服务器和便携性。
4)在php.ini中的default_charset配置:
的default_charset =GB2312在php.ini中定义一系列PHP默认的语言特征,它通常是被推荐的注释行,使浏览器可以自动选择语言而不是一种强制性规则根据网页标题的字符集,这样他们就可以在同一台服务器上提供多语种服务。
声明:本文内容用于数码产品信息整理与选购参考,具体价格、库存、售后政策以官方渠道和电商页面实时信息为准。