自学记录HarmonyOS Next的HMS AI API 13：语音合成与语音识别

在完成图像处理项目后，我打算研究一下API 13的AI其中的——语音技术。HarmonyOS Next的最新API 13中，HMS AI Text-to-Speech和HMS AI Speech Recognizer提供了语音合成与语音识别的强大能力。

语音技术是现代智能设备的重要组成部分，从语音助手到实时翻译，它的应用场景广泛且影响深远。我决定通过这些API实现一个支持语音输入与语音合成输出的应用，探索语音技术在开发中的实践与实现。

第一步：理解Text-to-Speech和Speech Recognizer API

Text-to-Speech API

Text-to-Speech（TTS）API提供了将文字转化为语音的功能。核心功能包括：

文本到语音的实时转换
自定义语速、音调和发音人
支持多语言

通过TTS API，我们不仅可以实现语音助手的响应功能，还能够用于语音导航、教育应用等多场景。

Speech Recognizer API

Speech Recognizer API 提供了语音转文本的功能，核心功能包括：

实时语音识别
语言模型支持
语音识别的动态监听

语音识别的实时性和准确性，使得它在智能设备和人机交互中不可或缺。利用Speech Recognizer API，可以轻松实现基于语音的控制逻辑和输入功能。

结合这两个API，我计划开发一个“语音助手”原型应用，通过语音输入获取指令并通过语音合成返回响应。

第二步：项目初始化与配置

在使用这些API之前，需要为应用添加必要的权限和配置。

配置权限

在config.json中添加以下内容：

{
  "module": {
    "abilities": [
      {
        "name": "VoiceAppAbility",
        "permissions": [
          "ohos.permission.INTERNET",
          "ohos.permission.MICROPHONE",
          "ohos.permission.RECORD_AUDIO"
        ]
      }
    ]
  }
}

确保应用能够访问网络和麦克风，满足语音输入和输出的硬件需求。

第三步：语音合成功能实现

初始化Text-to-Speech服务

以下代码展示了如何初始化TTS服务并设置参数：

import textToSpeech from '@ohos.hms.texttospeech';

let ttsInstance = null;

async function initializeTTS() {
    try {
        ttsInstance = textToSpeech.createTextToSpeechInstance();
        console.info('TTS服务初始化成功');

        await ttsInstance.setParameters({
            language: 'en-US',
            voiceName: 'en-US-st-1',
            speed: 1.0,
            pitch: 1.0
        });
        console.info('TTS参数设置成功');
    } catch (error) {
        console.error('TTS服务初始化失败:', error);
    }
}

initializeTTS();

文本转语音

实现将文本转换为语音并播放：

async function speak(text: string) {
    try {
        await ttsInstance.speak({
            text,
            queueMode: 0 // 立即播放
        });
        console.info('语音合成播放成功');
    } catch (error) {
        console.error('语音合成失败:', error);
    }
}

speak('Hello, this is your voice assistant.');

这一功能可以在智能家居设备中作为提示音生成模块，也可以在教育软件中为用户朗读内容。

第四步：语音识别功能实现

初始化Speech Recognizer服务

以下代码展示了如何初始化语音识别服务：

import speechRecognizer from '@ohos.hms.speechrecognizer';

let recognizerInstance = null;

async function initializeSpeechRecognizer() {
    try {
        recognizerInstance = speechRecognizer.createSpeechRecognizerInstance();
        console.info('语音识别服务初始化成功');
    } catch (error) {
        console.error('语音识别服务初始化失败:', error);
    }
}

initializeSpeechRecognizer();

实时语音识别

实现语音识别并动态监听结果：

async function startRecognition() {
    try {
        await recognizerInstance.startRecognition({
            language: 'en-US',
            continuous: true
        });

        recognizerInstance.on('result', (result) => {
            console.info('识别结果:', result.text);
            respondToVoice(result.text);
        });

        console.info('语音识别启动成功');
    } catch (error) {
        console.error('语音识别启动失败:', error);
    }
}

function respondToVoice(text: string) {
    const response = `You said: ${text}`;
    speak(response);
}

startRecognition();

这一功能可以用于用户指令解析，实现如“打开灯光”或“播放音乐”等智能家居控制逻辑。

第五步：构建用户界面

在HarmonyOS Next中，界面通过ArkTS和ArkUI实现。

界面布局

import { View, Text, Button } from '@ohos.arkui';

export default View.create({
    build() {
        return (
            {
                type: "flex",
                flexDirection: "column",
                children: [
                    {
                        type: Text,
                        content: "语音助手",
                        style: { height: "50vp", fontSize: "20vp", textAlign: "center" },
                    },
                    {
                        type: Button,
                        content: "开始语音识别",
                        style: { height: "50vp", marginTop: "20vp" },
                        onClick: this.onStartRecognition
                    },
                    {
                        type: Button,
                        content: "测试语音合成",
                        style: { height: "50vp", marginTop: "10vp" },
                        onClick: this.onTestTTS
                    }
                ]
            }
        );
    },

    onStartRecognition() {
        startRecognition();
    },

    onTestTTS() {
        speak('This is a test of text-to-speech functionality.');
    }
});

通过简洁的界面设计，再配合之前的代码，用户可以轻松体验语音识别与合成的强大功能。

最后的感悟

研究完HarmonyOS Next HMS AI API 13的Text-to-Speech和Speech Recognizer功能，确实感受到了AI语音技术的便利与强大。从语音识别到语音合成，这些技术不仅提高了应用的交互性，也为开发者提供了广阔的创新空间。

语音技术未来的潜力是无限的。从无障碍应用到智慧城市，语音技术将在多领域展现它的影响力。如果你也对语音技术感兴趣，不妨尝试使用这些API，从基础功能开始，逐步构建自己的语音驱动应用，并为智能化的未来贡献一份力量！

当然如果你也在这一领域研究，不妨关注我，我们一起进步～！

自学记录HarmonyOS Next的HMS AI API 13：语音合成与语音识别

第一步：理解Text-to-Speech和Speech Recognizer API

Text-to-Speech API

Speech Recognizer API

第二步：项目初始化与配置

配置权限

第三步：语音合成功能实现

初始化Text-to-Speech服务

文本转语音

第四步：语音识别功能实现

初始化Speech Recognizer服务

实时语音识别

第五步：构建用户界面

界面布局

最后的感悟

李游Leo

引用和评论

鸿蒙ArkTS | Badge 信息标记组件自学指南

HarmonyOS 第一课：基础课程

HarmonyOS应用开发学习笔记(2024-12-25)

HarmonyOS开发：AI套件的技能调用

HarmonyOS 第一课：高级课程

鸿蒙生态学堂

uni-app x正式支持鸿蒙原生应用开发