使用 Gemini APIs 掌握音频转录：开发者指南

发布于 2025-10-22

主要观点：

Gemini 模型是多模态大语言模型，具备强大的音频转录能力，可用于构建转录服务等。
支持多种音频格式输入，有 generateContent、streamGenerateContent 和 BidiGenerateContent（LiveAPI）等 API。
提供了基本音频转录和高级实时音频转录（LiveAPI）的代码示例及相关说明。
介绍了使用 Gemini 音频转录的先决条件、认证设置等。
提及使用 Gemini 音频转录时的一些注意事项，如 API 密钥获取方式、可能的空响应等。

关键信息：

重要细节：

generateContent是标准 REST 端点，streamGenerateContent使用 SSE 发送部分响应，BidiGenerateContent创建双向流连接。
在基本音频转录中，可通过设置特定提示来遵循格式化规则。
在 LiveAPI 中，输入音频必须是 Raw 16 位 PCM 音频，16kHz，小端序。
在测试中发现 LiveAPI 可能在音频某些点后开始发送乱码文本。

阅读 441