GBK

  • 全称《汉字内码扩展规范》(即"国标"+"扩展"汉语拼音的首字母)
  • 英文名称 Chinese Internal Code Specification

GBK是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字

UTF-8

是针对Unicode的一种可变长度字符编码,它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用

区别对比

GBKUTF-8
包含全部中文字符包含全世界所有国家需要用到的字符
每个字符占用2个字节英文使用1字节,中文使用24位3字节
国家编码国际编码
  • 总的来说,UTF-8与GBK是基于科技发展衍生出来的,在网络发展初期流量昂贵,中文网站使用GBK来传输,相当于UTF-8是更节省的,但以目前发展来看,国际化趋势不可逆转,UTF-8才是通用性的首选

BOM

byte-order mark (即字节序标记),主要针对unicode编码格式文件,会在文件头部插入几个字节作为标识头,UTF-8 的 BOM 是 EF BB BF

UTF-8文件分为"有BOM"和"无BOM"两种,如遇问题,可以借助辅助软件(如UltraEdit,WinHex等)查看文件标识头(BOM),以便确认其编码格式,若是自己的工作环境,只会用到UTF-8,或其它因素制约,使用无BOM格式也未尝不可,否则为了更好的兼容性,容错性,推荐使用有BOM的UTF-8

参考资料:
https://baike.baidu.com/item/UTF-8?fromModule=lemma_search-box
https://baike.baidu.com/item/GBK%E5%AD%97%E5%BA%93/3910360?fr...
http://www.360doc.com/content/21/1031/13/75593589_1002157752....


老污的猫
30 声望5 粉丝

引用和评论

0 条评论