打破数据量瓶颈!数据堂推出超大规模英语发音词典

faddiddn

英语是最具影响力的全球性交流语言之一,与其相关的英语语音识别系统也在学术界和工业界受到广泛关注。

英语语音识别技术取得了非常可观的落地应用成果,AI企业和相关机构持续发力,致力于不断提升英语语音识别准确率。

训练语音识别模型通常需要三类数据:语音数据,多人语音及其对应文本;发音词典,该语种的词汇和对应音标;原始文本,也就是该语种的文本。

其中,发音词典指的是系统所能处理的单词的集合,对这些单词标明了发音。所以,发音词典所包含的单词量越大,对提升语音识别精准度越有效。

在这里插入图片描述

发音词典指的是系统所能处理的单词的集合

在语音识别系统中,通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作。

发音词典和语种一一对应,也就是说一个语种只需要一个发音词典。当新词汇产生时,可以将这些词汇及对应音标添加进去,不断扩充词典规模。所以,词汇量、音标标注和校对的准确性是衡量该发音词典质量的重要标准。

随着时代的发展变化,英语词汇不断更新,根据不同时间的不同统计,英文单词总量从几十万到上百万不等。

图片

现有各种字典里能搜集到的英文单词量十分有限

但是现有的各种字典里能搜集到的英文单词量十分有限:人工智能行业内最常用的CMU英文发音词典仅包含10多万个英文单词;国内人工智能企业研发的英语发音词典的单词规模大多也在10万左右。

数据堂突破了英语发音词典词汇量的瓶颈,制作了超大规模的442,799条英语发音词典。

数据堂收集了大量原始英语语料资源,并对其进行数据清理、文本分词和姓名识别等文本处理。通过请教专家、调研论文,参考各种词典、谷歌翻译和百度翻译上的单词发音,数据堂整理出了一套完整的发音规则。

图片

英语发音词典数据样例

字素音素转换(G2P)是根据单词的书面形式生成单词发音的过程。

目前业内研发人员通常使用G2P的方法来自动生成未知单词的音标,但程序自动生成的准确率低。442,799条英语发音词典中的所有单词全部经过人工标注和校对,是一套高质量的发音词典。

数据堂在语音识别数据服务领域深耕多年,目前,除了442,799条英语发音词典,数据堂面向普通话、方言和其他语种也制作了相应的发音词典。
在这里插入图片描述
清晰的发音规则、干净的语料、程序的开发是一部发音词典基础,数据堂在发音词典的制作和开发领域积累了丰富的经验。未来,数据堂会面向更多方言和语种制作相应的语音词典,并不断扩大其规模,为语音识别和语音合成等技术的发展持续提供助力。

阅读 262

1 声望
0 粉丝
0 条评论
1 声望
0 粉丝
文章目录
宣传栏