GBK
- 全称《汉字内码扩展规范》(即"国标"+"扩展"汉语拼音的首字母)
- 英文名称 Chinese Internal Code Specification
GBK是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字
UTF-8
- 全称 Unicode Transformation Format(8位元)
是针对Unicode的一种可变长度字符编码,它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用
区别对比
GBK | UTF-8 |
---|---|
包含全部中文字符 | 包含全世界所有国家需要用到的字符 |
每个字符占用2个字节 | 英文使用1字节,中文使用24位3字节 |
国家编码 | 国际编码 |
- 总的来说,UTF-8与GBK是基于科技发展衍生出来的,在网络发展初期流量昂贵,中文网站使用GBK来传输,相当于UTF-8是更节省的,但以目前发展来看,国际化趋势不可逆转,UTF-8才是通用性的首选
BOM
byte-order mark (即字节序标记),主要针对unicode编码格式文件,会在文件头部插入几个字节作为标识头,UTF-8 的 BOM 是 EF BB BF
UTF-8文件分为"有BOM"和"无BOM"两种,如遇问题,可以借助辅助软件(如UltraEdit,WinHex等)查看文件标识头(BOM),以便确认其编码格式,若是自己的工作环境,只会用到UTF-8,或其它因素制约,使用无BOM格式也未尝不可,否则为了更好的兼容性,容错性,推荐使用有BOM的UTF-8
参考资料:
https://baike.baidu.com/item/UTF-8?fromModule=lemma_search-box
https://baike.baidu.com/item/GBK%E5%AD%97%E5%BA%93/3910360?fr...
http://www.360doc.com/content/21/1031/13/75593589_1002157752....
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。