背景
一般涉及到数据传输, 考虑到业务方直接通过字符串传过来时会被过滤特殊字符等情况,对数据的编码必不可少。数据编码方式最常用的应该是 Base64。 Base64 编码本质上是一种将二进制数据转换成文本数据的方案。 下面会详细介绍它的原理,实现以及一些应用场景。
<!--more-->
编码原理
Base64 编码是基于64个字符 A-Z,a-z,0-9,+,/
的编码方式,因为2的6次方正好为64,所以就用6bit就可以表示出64个字符,比如 000000对应A,000001对应B。
流程
- 按字符串长度, 以每3个字符 (1Byte= 8Bit)为一组
- 针对每一组,对每个字符的 ASCII 编码转换为 8Bit 的二进制, 得到一组 3*8 = 24Bit 的字节
- 对 24Bit 划分成4个 6Bit 的字节, 在每个 6Bit 的字节前面都填两个高位0, 得到4个 8Bit 的字节
- 把 4 个 8Bit 字节转换成十进制, 对照 BASE64 编码表, 得到对应编码后的字符。
注意
- 要求被编码字符是 8bit 的,所以须在 ASCII 编码范围内,u0000-u00ff,不允许中文。
- 如果被编码字符长度不是3的倍数,则用0代替,对应的输出字符为 "="
Base64 编码本质上是将二进制数据 转成 文本数据。对于非二进制数据,是转换成二进制形式,然后每连续6比特(2^6 =64)计算其十进制值,根据该值在 A--Z,a--z,0--9,+,/
这64个字符集中找对应的字符,串起来得到一个文本字符串
基本规则
- 标准Base64只有64个字符:
A--Z,a--z,0--9,+,/,=
- Base64 把3个字节变成4个可打印字符,所以 Base64 编码后的字符串一定能被4整除 (排查用作后缀的等号)
- 等号一定用作后缀,且数目一定是0个、1个或2个。这是因为如果原文长度不能被3整除。Base64要在后面添加 0 凑齐 3n 位。为了正确还原,添加了几个 0 就加上几个等号。显然添加等号的数目只能是0、1或2
- Base64 只是一种编码,不是加密方案
实现
对字符串进行 Base64 编码:
func Base64Encoding() { input := []byte("Herbert Lu") // Encoding using Base64 encodeString := base64.StdEncoding.EncodeToString(input) fmt.Println(encodeString) // Base64 decoding of encoding results decodeBytes, err := base64.StdEncoding.DecodeString(encodeString) if err != nil { fmt.Println("decode input string fail: ", err) return } fmt.Println(string(decodeBytes)) }
在 URL 中对字符串进行 Base64 编码:
func Base64URLEncoding() { // Using Base64 in URL Encoding uEnc := base64.URLEncoding.EncodeToString([]byte(input)) fmt.Println(uEnc) uDec, err := base64.URLEncoding.DecodeString(uEnc) if err != nil { log.Fatalln(err) } fmt.Println(string(uDec)) }
应用
- 简单的加密。 比如把一些信息简单地用 Base64 处理,防止被明文查看。
- 数据传输, 用于内容在各个网络节点间传输,且不丢数据。计算机中任何数据都是按 ASCII 码存储,而 ASCII 码的128~255之间值是不可见字符。而在网络上交换数据时,比如说从A地传到B地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,造成数据丢失或传输失败。先把数据进行 Base64 编码,转换成可见字符后出错的可能性就大大降低
小结
Base64 作为常见的编码手段, 对软件工程师来说也是一项必知必会的技能,所以掌握它的实现原理和知道它的应用场景, 对工作是非常有帮助的。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。