构建口音英语识别最佳数据,一招化解人机口音交流的尴尬

faddiddn

语音对于人机交互的重要性毋庸置疑,让机器“听懂”人类语言,是语音识别技术自诞生起,就致力于实现的目标。

英语是世界通用语言,国内外企业都在英语语音识别的速度、准确度等方面持续创新。然而,AI似乎在口音英语识别上显得有些“力不从心”。

image.png

AI在口音英语识别上遇到了挑战

《华盛顿邮报》曾与Globalme、Pulse Labs两家语言研究公司合作,研究智能音箱的口音识别问题,结果显示,谷歌智能音箱Google Home更容易“听懂”美国西岸口音,对南部口音的识别准确率则要低3%;而亚马逊Echo搭载的语音助手Alexa,识别东岸口音的准确率要比中西部口音高2%。

更大的问题还在于对非本土口音的识别。研究显示,对于非英语母语者,比如以西班牙语或汉语作为第一语言的人所说的英文,不论是Google Home还是Amazon Echo,其识别准确率都要比美国本土口音低30%。

解决英语口音识别问题,已成为智能语音识别的竞争焦点,各大知名AI企业都在试图攻克这道“难题”。

例如,国内知名AI企业科大讯飞持续在口音英语识别领域发力,推出讯飞翻译机3.0。这款翻译机可识别出多地外语口音,即使遇到“不地道”的外国话,也能听得清、听得懂,帮助人们出国时不会因为语言不通造成不必要的麻烦。

image.png

讯飞翻译机3.0可识别出多地外语口音

口音英语识别到底难在哪儿?从理论上来说,只要有足够的数据供机器进行训练,那么让AI识别任何一种语言或口音,都不是问题。

也就是说,一个出色的语音识别模型,需要有大量标注数据的训练:首先,要进行语音内容的采集;其次,需要人工对这些语音进行标注,将语音内容转写成文本;最后,算法再将识别后的文本内容与对应的音频进行逻辑关联。

但百度智能云数据众包项目专家曹静文曾表示:“对于方言、口音的识别来说,最难的部分是在于语音数据的采集。”

image.png

口音英语数据是关键,但数据的采集有一定困难

数据堂作为全球领先的人工智能数据服务提供商,依托自身的数据资源、技术优势和丰富的数据处理经验,攻克语音数据采集困难,自2011年成立以来,已经为国内外1000多家人工智能企业和科研机构提供了优质的数据服务。

在口音英语数据产品方面,数据堂作为联合主办单位之一成功举办了“INTERSPEECH2020口音英语语音识别挑战赛”,并为参赛者提供了采集自8个国家的高质量的口音英语数据,数据堂设计研发的各国口音英语数据已经获得业界的一致认可。

image.png

数据堂的口音英语数据产品做到了从市场实际应用场景出发,覆盖不同场景下发音内容的多样性,从而达到训练数据与实际应用场景中的数据高度匹配,帮助客户快速提升语音识别的性能。

AI企业和科研机构在接下来的研究中应注意到以下两点:

首先,提升语言识别的准确率,需要对该语言的文化、语素、音素等有相当的研究。若要实现方言、口音的准确识别,也需要方言学者、音韵学者等专业人士的深度参与。

另外,面对一些资源相对稀缺的口音和方言时,要注重研究如何使用迁移学习,以较少数据量得到一个好的声学模型。

阅读 230

1 声望
0 粉丝
0 条评论
1 声望
0 粉丝
文章目录
宣传栏