无损上下线能力：该能力在微服务变更时，应用比较广泛，

客户端重连机制：在客户端设计自动重连机制，减少中断影响，和无损上下线一样，使用心跳包检测连接状态，一旦中断自动重连，此外，还可以在服务器端记录已发送的数据，实现断点续传；
3）协议切换机制：在 SSE 和 WebSocket 不可用时，回退到长轮询（Long Polling），不过这个依赖于网关本身是否支持这些长连接。
6.3 大带宽导致内存快速上涨的稳定性风险和带宽成本
技术挑战：大模型经常需要处理长文本、以及图片、视频等多模态内容，对带宽的消耗远超 Web 类应用，导致内存快速上涨，同时带来更高的带宽成本。

应对方案：选择支持流式处理的网关（如 Higress），将生成的内容分块传输，减少单次传输的数据量。同时，采用压缩算法（如 Gzip），减少数据传输量，控制带宽成本。阿里云云原生 API 网关即将上线软硬一体化的内容压缩方案，带宽传输成本可下降20%+。

6.4 高延时导致防范恶意攻击的资源成本增高
技术挑战：相比 Web 类应用，大模型应用推理时消耗的计算资源更多。例如发生 DDoS 攻击时， Web 类应用应对攻击会消耗1:1的计算资源，大模型应用则会消耗1:x(x 远大于1) 的后端资源，导致大模型应在面对恶意攻击时，更加脆弱。

应对方案：在网关层部署立体的防护措施，包括认证鉴权、安全防护、流量管控等。

具体就是：

1）认证鉴权：对来自客户端的请求，进行合规性的校验。基于具体的业务需求，选择第三方的认证协议，从我们服务的客户经验上看，选择 OAuth2、JWT 的居多；
2）安全防护：通过 IP 限制，或者基于URL、请求头等特征，设计安全防护措施；
3）流量管控：基于 URL 参数、HTTP 请求头、客户端 IP 地址、消费者名称或 Cookie 中的 Key，进行 token 级别的限流。
7、未来趋势
大模型应用除了带来了 SSE 和 WebSocket 的使用频率越来越高，也在助推 API First 的理念。

以往：在线应用都是通过 Service 来对外暴露提供能力，但大模型应用将通过 API 对外提供服务能力，除了基模类厂商已经通过提供 API 来服务广大开发者群体，大模型应用类厂商也开始提供 API 服务。

例如：近日 Perplexity 将面向企业客户和开发人员推出其 AI 搜索的 API 服务——基础版 Sonar 和高级版 Sonar Pro，以允许企业和开发人员把 Perplexity 的生成式 AI 搜索工具构建到自己的应用中去。

这样做的好处是：Perplexity 可以因此让自己的 AI 搜索无处不在，而不只局限在它的应用与网站里。一个案例是其客户 Zoom：Sonar 允许 Zoom 的 AI 聊天机器人根据带有引文的网络搜索提供实时答案，而不需要 Zoom 的视频用户离开聊天窗口。随着国内大模型应用的成熟，相信这一趋势会越加明显。

8、参考资料
[1] 深入浅出，全面理解HTTP协议

[2] HTTP协议必知必会的一些知识

[3] 一分钟理解 HTTPS 到底解决了什么问题

[4] 如果这样来理解HTTPS原理，一篇就够了

[5] 为什么要用HTTPS？深入浅出，探密短连接的安全性

[6] 新手入门贴：史上最全Web端即时通讯技术原理详解

[7] Web端即时通讯技术盘点：短轮询、Comet、Websocket、SSE

[8] SSE技术详解：一种全新的HTML5服务器推送事件技术

[9] Comet技术详解：基于HTTP长连接的Web端实时通信技术

[10] WebSocket从入门到精通，半小时就够！

无损上下线能力：该能力在微服务变更时，应用比较广泛，

已注销

引用和评论

建立可复用的项目管理模板能够显著提高项目执行效

为 SPA 应用实现一个升级提示组件（UpgradeNotification）

Claude 3.7 全解析：AI 代码助手的巅峰之作？

如何让网页加载速度提升 50%？这些优化技巧直接提升性能！

Vue开发前端报错：‘vue-cli-service’ 不是内部或外部命令解决方案详解

TypeScript 走向原生，迎来 10 倍性能飞跃

微软为何选择用Go而非Rust重写TypeScript