再探Watson服务

基于上个系列的关于Watson的介绍。我在这个系列会对Watson进行更深一步的探究和使用,主要使用文本语音转换,自然语言分析,文本分类这几个服务做一个简单的人机交互系统,初步目标是类似像siri那样。
本文地址:https://segmentfault.com/a/11...

一. 基本服务简介

1.1 speech to text(语音文本转换)

speech to text 可以为你的应用提供语音文本转录的能力。对非结构化信息的处理是Watson非常吸引人的地方,也使得他在众多人工智能服务中脱颖而出。因而,Watson对语音文字转化可以达到较高的可信度。

1.1.1 应用场景

1.可以通过语音进行控制的应用,包括一些嵌入式设备,比如无人车,智能家电等。
2.视频或者语音电话会议。
3.一些通过语音可以进行的操作(用以解放双手),比如口述短信或邮件内容。

1.1.2 使用及方法

接口调用

该服务可以通过三种方法实现调用,通过WebSocket接口,或者REST接口,或者是异步HTTP接口。

  • WebSocket接口
    该方法提供了有效的,低延迟,高通量的全双工连接,是最好的调用方式,可以同时发送并获取结果。

  • REST接口
    只需建立一次连接,即可上传音频文件用以分析。该方法的优点是简单上手,但在实际应用中需要处理实时数据就显得不那么有用了。

  • 异步HTTP接口
    通过非阻塞的方式调用服务,并且允许你使用用户指定的秘密字符串或是数字签名以确定加密级别。

输入

尽管使用三种不同的调用接口,但是三种方式共享相同的调用参数,只需要修改请求头的部分即可。

  • 认证

  • 音频格式

  • 使用的语言(默认)

  • 自定义语言

更详细的文档见API输入参数说明

输出

输出以json格式返回,它将包括以下几方面内容:

  • 基础翻译

  • 说话者识别

  • 关键词识别

  • 词或句的可选择性

  • 优化输出格式(针对日期,数字,网址等)

我会在这篇文章中举例说明具体如何使用。

1.2 text to speech(文本语音化)

speech to text使用IBM语音合成技术,将文本内容语音化输出。

1.2.1 应用场景

在一些由语音控制或者屏幕控制接口缺少(不存在)的应用场景下,该服务大有用武之地。通常包括:

  1. 智能家居

  2. 视觉障碍辅助工具

  3. 智能汽车中向驾驶员朗读邮件和短信

  4. 视频字幕朗读

  5. 基于朗诵的教育工具

1.2.2 使用及方法

接口调用

通过HTTP接口或者WebSocket接口,这和speech2text是一样的。

合成语音

HTTP GET方法,通过查询参数传递较短文本。

HTTP POST方法,在请求体中传递较长文本。

WebSockets


阿然
32 声望10 粉丝

如果你问我问题,我会给你一个有效,全面,精彩的回复。


引用和评论

1 篇内容引用
0 条评论