UTF-8和GBK的区别

UTF-8和GBK的区别GBK 就是在保存你的帖子的时候 一个汉字占用两个字节 外国人看会出现乱码 此为我中华为自己汉字编码而形成之解决方案 UTF8 就是在保存你的帖子的时候 一个汉字占用 3 个字节 但是外国人看的话不会乱码 此为西人为了解决多字节字符而形成之解决方案 ASCII ISO 8859 1 是鼻祖 最简单的方式 字节高位为 0GB2312 GBK GB18030 这几个是中文编码方式 并向下兼容 GB

GBK就是在保存你的帖子的时候,一个汉字占用两个字节。。外国人看会出现乱码,此为我中华为自己汉字编码而形成之解决方案。

UTF8就是在保存你的帖子的时候,一个汉字占用3个字节。。但是外国人看的话不会乱码,此为西人为了解决多字节字符而形成之解决方案。

Unicode是统一编码,它建立了一个全世界统一的码表。世界上的所有文字,在这张码表中都是唯一的。

UTF-16是双字节存储,这就带来一个问题,即高低字节的顺序。两个字节有两种顺序,它们也用BOM来标明。分为大尾码和小尾码两种。大尾码的BOM是FEFF,小尾码的BOM是FFFE

至于UTF-8编码则是用以解决国际上字符的一种多字节编。码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)

 

各种编码详解
ASCII 

ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 

只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。 

GB2312 

GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般 用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。 

区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。 

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。 

GB2312的编码范围是0xA1A1-0x7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。 
EUC-CN可以理解为GB2312的别名,和GB2312完全相同。 

区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO-2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像 Unicode和UTF-8。 

GBK 

GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。 

GBK的整体编码范围是为0x8140-0xFEFE,不包括低字节是0×7F的组合。高字节范围是0×81-0xFE,低字节范围是0x40-7E和0x80-0xFE。 

低字节是0x40-0x7E的GBK字符有一定特殊性,因为这些字符占用了ASCII码的位置,这样会给一些系统带来麻烦。 
有些系统中用0x40-0x7E中的字符(如“|”)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节,这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0x80的某个字节未必就是ASCII符号;另外就是最好选用小于0×40的ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。 

CP936和GBK的有些许差别,绝大多数情况下可以把CP936当作GBK的别名。 

GB18030 

GB18030编码向下兼容GBK和GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同。GB18030收录了所有Unicode3.1中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。 

GBK和GB2312都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030编码是变长编码,有单字节、双字节和四字节三种方式。 
GB18030的单字节编码范围是0x00-0x7F,完全等同与ASCII;双字节编码的范围和GBK相同,高字节是0x81-0xFE,低字节的编码范围是0x40-0x7E和0x80-FE;四字节编码中第一、三字节的编码范围是0x81-0xFE,二、四字节是0x30-0x39。
 

Windows中CP936代码页使用0x80来表示欧元符号,而在GB18030编码中没有使用0x80编码位,用其他位置来表示欧元符号。这可以理解为是GB18030向下兼容性上的一点小问题;也可以理解为0x80是CP936对GBK的扩展,而GB18030只是和GBK兼容良好。 
unicode 

每一种语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准,叫做unicode。unicode为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。也就是说,它世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。 
  Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache’s),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。 
  因此,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示,在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分,例如,在UTF-8和ASCII中,“A”的编码都是0x41. 
  UTF-16和UTF-32分别是Unicode的16位和32位编码方式。考虑到最初的目的,通常说的Unicode就是指UTF-16。在讨论Unicode时,搞清楚哪种编码方式非常重要。 
UTF-8 

Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。 

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换: 

GBK、GB2312--Unicode--UTF8 

UTF8--Unicode--GBK、GB2312




















































GBK,GB2312以及Unicode都既是字符集,也是编码方式,而UTF-8只是编码方式,并不是字符集

GBK编码中英文字符只占一个字节

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/207312.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午2:05
下一篇 2026年3月19日 下午2:06


相关推荐

  • 行列式运算法则 矩阵的运算及其运算规则:「建议收藏」

    行列式运算法则 矩阵的运算及其运算规则:「建议收藏」1、三角形行列式的值,等于对角线元素的乘积。计算时,一般需要多次运算来把行列式转换为上三角型或下三角型2、交换行列式中的两行(列),行列式变号(交换)3、行列式中某行(列)的公因子,可以提出放到行列式之外。(倍乘)(注:矩阵是全部元素都乘,都提取)4、行列式的某行乘以a,加到另外一行,行列式不变,常用于消去某些元素。(倍加)5、若行列式中,两行(列)完全一样,则行列式为0;可以推论,如果两…

    2025年8月23日
    4
  • 无线视频传输技术「建议收藏」

    无线视频传输技术「建议收藏」原文地址:http://www.ed-china.com/ART_8800047847_400002_500018_HN_151edec4.HTMWiDi/Miracast将在无线高清视频传输市场占最大份额据IHSiSuppli公司的显示电子特别报告,在消费与移动产品高清视频无线传输市场,三种基于Wi-Fi的视频技术将胜过两种应用范围较窄的专有技术。今年能传输高清视频

    2026年4月14日
    6
  • python写的 自定义连点器 的开发全过程(抢票、信息轰炸等、游戏连招等)——思路及解析【内附完整源码】

    python写的 自定义连点器 的开发全过程(抢票、信息轰炸等、游戏连招等)——思路及解析【内附完整源码】可以看到逻辑非常简单即可实现我想要的功能 不过即使是这样 我也花了差不多半小时的时间来编写代码 于是我就在想 要是以后我要开发抢火车票啊 抢九价啊 抢限量品啊 信息轰炸啊等等的功能 是不是也要这么多时间呢 那我能不能自己造轮子来快速帮助我开发我想要的脚本呢 至此 此章的内容正式开始了 我将一步一步带着读者来开发这个快速开发自定义连点器的程序 有一点点拗口 一般需要的功能有 点击 延时 连点 拖拽 一般这四个功能就能完成绝大多数的简单的辅助脚本开发了 但我想做得稍微高级一点 功能多一点 就想另外开发 循

    2026年3月20日
    3
  • 【保姆级教程】手把手教你本地部署Open Claw,轻松实现智能爬虫![特殊字符]

    【保姆级教程】手把手教你本地部署Open Claw,轻松实现智能爬虫![特殊字符]

    2026年3月12日
    3
  • wmware虚拟系统光盘的问题

    wmware虚拟系统光盘的问题

    2021年11月19日
    45
  • Java开发人员必须掌握的两个Linux魔法工具(四)

    子曰:“工欲善其事,必先利其器。“做一个积极的人 编码、改bug、提升自己 我有一个乐园,面向编程,春暖花开!学习应该是快乐的,在这个乐园中我努力让自己能用简洁易懂(搞笑有趣)的表达来讲解知识或者技术,让学习之旅充满乐趣,这就是写博文的初心。故事旁白:在哈利波特的电影中,每个巫师都有一根自己的魔法棒,魔法棒是用来施展魔法的。而今天我们也要学会使用魔法棒(工具)来施展我们的魔法。魔法地…

    2022年2月28日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号