摘要:本文介绍了使用火山引擎云拨测产品对大语言模型进行“语速”测评的结果和过程,主要内容分为以下4部分:
- 影响AI“语速”的指标
- 对主流大模型单轮对话AI“语速”测评结果
- 如何使用云拨测监测AI“语速”
- 火山引擎云拨测介绍
当今时代,LLM(Large Language Model)大语言模型技术不断推动着生成式AI(Generative Artificial Intelligence)飞速发展,不论是在智能对话系统、虚拟助手、翻译领域,还是在个性化推荐、营销领域,AI都展现出了惊人的效果和巨大的潜力。
随着厂商不断增多,针对大模型的测评也层出不穷,有测评准确性的、有让它们参加高考的、还有让它们写新闻的。今天的测评和你之前见过的都不一样,我们会使用火山引擎云拨测产品来测一测AI“语速”。
影响AI“语速”的指标
测评开始之前,我们需要确定控制AI“语速”的因素。大语言模型的生成过程是基于已生成的部分逐步预测下一个词汇,为了适应大模型的工作特性,应用层面通常采用Server-Sent Events(SSE)来保证模型输出的词句快速传递到用户侧,让用户感受到AI流畅的“语速”。
SSE是一种基于HTTP协议的实时数据推送技术,通过维持一个HTTP的长连接,SSE实现了服务器主动向客户端推送更新,增强了传统HTTP应用Request - Response通信模型的实时性,使客户端能够直接接收服务端的最新数据,无需轮询。
这个过程中,有3个指标直接影响用户体验:
- 首包时延:用户发送请求后收到Reponse Header第一个字节的耗时,即AI对用户的问题是否“立刻作答”;
- 接收时间:通常用来衡量网络传输速度,但使用SSE协议传输的大模型应用是一边处理,一边回复,因此接收时间也能衡量大模型的推理速度,即AI回答用户问题是否“吞吞吐吐”;
- 整体时延:AI逐字词回复时,首包时延、接收时间、输出给用户的累计耗时,即AI回答用户问题是否“快且准”。
这3个指标正是我们使用火山引擎云拨测来测评AI“语速”的关键。
主流大模型单轮对话 AI “语速”测评
此次测评选取了4款国产大模型,为求准确,都选取了支持长文本的模型对比。火山引擎云拨测通过大模型服务的单轮对话OpenAPI执行HTTP拨测任务,通过对大模型提出问题,围绕首包时延、接收时间、整体时延3个重要观测指标进行测评。
测试结果如下:
- 首包时延:模型D和模型B表现较好,其次是模型C、模型A
- 接收时间:表现排名依次为模型C、模型D、模型A、模型B
在测评接收时间时,我们有一个重要发现!模型C接收数据耗时非常短,不到1ms,因此我们推测模型C使用了某种缓存机制,同样的问题不会重复经过AI推理,而是直接返回缓存的答案,感兴趣的小伙伴也可以试试自己测评,测评教程可见后文。 - 整体时延:模型C和模型D表现较好,其次是模型B、模型A
测评总结
综合来看,只看整体时延,虽然模型C的表现最好,但是考虑到它可能应用某种缓存机制,从真实推理性能考虑,模型D表现最佳。模型A的大模型服务无论从推理性能还是网络性能都位于末流。
当然本次测评只从“语速”层面出发,属于大模型使用体验中的一部分,更多关于大模型的语义理解、知识库、回答合理性等复杂体验组合在一起才能组成完整的AI使用体验。如果好奇此次测评选取的大模型都是哪些,你可以免费试用火山引擎云拨测产品,成为大模型的测评官。
如何使用云拨测监测AI“语速”
火山引擎云拨测可以模拟全球用户在不同场景下的访问请求,周期性的监测用户终端到服务端的服务可用性、应用的稳定性和网络质量,支持HTTP,TCP/UDP,DNS等多种网络协议。
对话类应用广泛使用的SSE协议本质上是HTTP请求,因此可以通过云拨测的HTTP协议拨测来分析其性能。通过火山引擎云拨测的即时拨测功能,可以探测使用SSE协议的大模型对话接口,具体教程如下。
- 首先进入即时拨测创建页面,选择单协议->HTTP协议
- 在高级配置中,可以填写所需的HTTP方法和Request Body内容,请求头中,可以填写必要的鉴权信息
- 在任务目标中,填写探测URL,断言可以使用默认的配置
- 最后选择所需要发起探测的区域用来模拟真实用户所在网络环境,如下图
- 最后点击运行任务即可发起探测。
任务运行后,可以在任务分析页面看到当前探测的情况,包含了HTTP协议相关的丰富的统计数据。
通过详情页面,还可以进一步了解接口的返回内容详情。
这里我们可以清楚看到接口使用了SSE推送数据,消息格式也是符合标准的。
火山引擎云拨测
火山引擎云拨测是依托于字节跳动19亿用户业务下的数字体验监控最佳实践,以及基于全球分布的基础设施优势而打造的一款拨测产品。
通过分布在全球各地的监测节点来模拟用户访问云服务,火山引擎云拨测实现端到端的网络可用性、稳定性以及用户体验的可观测。帮助使用者快速发现、定位和诊断网络服务问题,提升用户体验。
火山引擎云拨测拥有以下优势:
- 覆盖全球的节点资源:云拨测支持全球范围的网络监测。1200+ 监测节点覆盖了全球范围的不同城市、不同运营商。同时支持私有监测节点的部署。
- 开箱即用,低成本接入:云拨测提供可视化的控制台。无需研发介入,对业务代码、技术架构无侵入。
- 多维分析诊断:交互式的图表,带来灵活的多维度对比下专业的分析诊断体验。
- 智能报警:基于多维度、多指标、智能基线进行实时异常检测,支持多渠道通知您的团队,降低MTTR。
- 最佳实践:云拨测已帮助火山引擎多个云服务、飞书等技术团队监控网络质量,定位网络故障,协助提高服务可靠性,成为网络监控的最佳实践。
AI测评官活动
扫码添加小助手,获取云拨测试用链接,使用云拨测完成大语言模型拨测即可获奖
▼活动推荐▼
目前火山引擎云拨测优惠活动进行中,不仅可以免费试用,还能享受买多少送多少、资源包限时 5 折的优惠!赶快访问火山引擎官网,免费申请试用~
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。