TCP 粘包拆包

粘包问题

在 TCP 这种字节流协议上做应用层分包是网络编程的基本需求。分包指的是在发生一个消息(message)或一帧(frame)数据时，通过一定的处理，让接收方能从字节流中识别并截取(还原)出一个个消息。因此，“粘包问题”是个伪命题

对于短连接的 TCP 服务，分包不是一个问题，只要发送方主动关闭连接，就表示一个消息发送完毕，接收方 read() 返回0，从而知道消息的结尾

为了提高 TCP 的传输效率，TCP 有一套自己的发送机制

对于长连接的 TCP 服务，分包有四种方法

消息长度固定
使用特殊的字符或字符串作为消息的边界，例如 HTTP 协议的 headers 以“rn”为字段的分隔符
在每条消息的头部加一个长度字段，这恐怕是最常见的做法
利用消息本身的格式来分包，例如 XML 格式的消息中 <root>...</root> 的配对，或者 JSON 格式中的 { ... } 的配对。解析这种消息格式通常会用到状态机(state machine)

假如消息格式非常简单，“消息”本身是一个字符串，每条消息有一个4字节的头部，以网络序存放字符串的长度。消息直接没有间隙，字符串也不要求以 '0' 结尾

发送两条消息“hello”和“smartboy”，打包后的字节流共有21字节

0x00, 0x00, 0x00, 0x05, 'h', 'e', 'l', 'l', 'o',
0x00, 0x00, 0x00, 0x08, 's', 'm', 'a', 'r', 't', 'b', 'o', 'y'

假设数据最终都全部到达，数据解析逻辑至少能正确处理以下各种数据到达的次序