评估基于大语言模型的语音助手：超越传统指标的指南

发布于 10 月 9 日

主要观点：语音助手已从简单规则系统发展为基于大型语言模型的高级对话代理，带来新评估挑战，需新指标评估事实性、安全性等；介绍了用于评估基于 LLM 助手的 HHH 原则及关键评估维度（包括有用性、诚实性、无害性）、任务完成与对话上下文（如任务完成成功、多轮对话上下文理解）、推理与问题解决、子系统级指标（如唤醒词检测、语音识别、文本转语音、延迟、可靠性）、评估粒度与方法等，最后强调评估需多维度结合且不断演进。

关键信息：

早期语音助手处理特定任务，现代 LLM 助手可长对话等，传统指标无法衡量整体质量。
HHH 原则强调有用、诚实、无害，各维度评估方法不同。
任务完成需考虑显式目标完成和部分成功，多轮对话要关注上下文理解。
推理评估看最终答案正确性和推理质量，挑战 LLM 内部一致性。
子系统指标包括唤醒词检测、语音识别、文本转语音、延迟、可靠性等。
评估需考虑粒度和方法，结合人工判断和自动化工具。

重要细节：

MT-Bench、AlpacaEval 用于评估指令遵循和有用性，TruthfulQA、FactualityEval 评估事实性，RealToxicityPrompts 等评估无害性。
如 DSTC11 Track 5 测试多轮对话中的接地和记忆，GSM8K 等测试推理能力。
唤醒词检测关注误接受率和误拒绝率的平衡，ASR 用词错误率等指标，TTS 用平均意见得分等。
评估需综合人工和自动化方法，确保一致性和准确性。

阅读 69