客户端重连机制:在客户端设计自动重连机制,减少中断影响,和无损上下线一样,使用心跳包检测连接状态,一旦中断自动重连,此外,还可以在服务器端记录已发送的数据,实现断点续传;
3)协议切换机制:在 SSE 和 WebSocket 不可用时,回退到长轮询(Long Polling),不过这个依赖于网关本身是否支持这些长连接。
6.3 大带宽导致内存快速上涨的稳定性风险和带宽成本
技术挑战:大模型经常需要处理长文本、以及图片、视频等多模态内容,对带宽的消耗远超 Web 类应用,导致内存快速上涨,同时带来更高的带宽成本。
应对方案:选择支持流式处理的网关(如 Higress),将生成的内容分块传输,减少单次传输的数据量。同时,采用压缩算法(如 Gzip),减少数据传输量,控制带宽成本。阿里云云原生 API 网关即将上线软硬一体化的内容压缩方案,带宽传输成本可下降20%+。
6.4 高延时导致防范恶意攻击的资源成本增高
技术挑战:相比 Web 类应用,大模型应用推理时消耗的计算资源更多。例如发生 DDoS 攻击时, Web 类应用应对攻击会消耗1:1的计算资源,大模型应用则会消耗1:x(x 远大于1) 的后端资源,导致大模型应在面对恶意攻击时,更加脆弱。
应对方案:在网关层部署立体的防护措施,包括认证鉴权、安全防护、流量管控等。
具体就是:
1)认证鉴权:对来自客户端的请求,进行合规性的校验。基于具体的业务需求,选择第三方的认证协议,从我们服务的客户经验上看,选择 OAuth2、JWT 的居多;
2)安全防护:通过 IP 限制,或者基于URL、请求头等特征,设计安全防护措施;
3)流量管控:基于 URL 参数、HTTP 请求头、客户端 IP 地址、消费者名称或 Cookie 中的 Key,进行 token 级别的限流。
7、未来趋势
大模型应用除了带来了 SSE 和 WebSocket 的使用频率越来越高,也在助推 API First 的理念。
以往:在线应用都是通过 Service 来对外暴露提供能力,但大模型应用将通过 API 对外提供服务能力,除了基模类厂商已经通过提供 API 来服务广大开发者群体,大模型应用类厂商也开始提供 API 服务。
例如:近日 Perplexity 将面向企业客户和开发人员推出其 AI 搜索的 API 服务——基础版 Sonar 和高级版 Sonar Pro,以允许企业和开发人员把 Perplexity 的生成式 AI 搜索工具构建到自己的应用中去。
这样做的好处是:Perplexity 可以因此让自己的 AI 搜索无处不在,而不只局限在它的应用与网站里。一个案例是其客户 Zoom:Sonar 允许 Zoom 的 AI 聊天机器人根据带有引文的网络搜索提供实时答案,而不需要 Zoom 的视频用户离开聊天窗口。随着国内大模型应用的成熟,相信这一趋势会越加明显。
8、参考资料
[1] 深入浅出,全面理解HTTP协议
[2] HTTP协议必知必会的一些知识
[3] 一分钟理解 HTTPS 到底解决了什么问题
[4] 如果这样来理解HTTPS原理,一篇就够了
[5] 为什么要用HTTPS?深入浅出,探密短连接的安全性
[6] 新手入门贴:史上最全Web端即时通讯技术原理详解
[7] Web端即时通讯技术盘点:短轮询、Comet、Websocket、SSE
[8] SSE技术详解:一种全新的HTML5服务器推送事件技术
[9] Comet技术详解:基于HTTP长连接的Web端实时通信技术
[10] WebSocket从入门到精通,半小时就够!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。