简介:
随着智能语音技术也被越来越多的应用于人们的日常生活,如何更准确地识别出多人语音交互过程中的不同说话人发声的起止时间点,作为语音识别等后端识别技术的前提,逐渐成为研究热点。
说话人日志(Speaker Diarization)技术的主要目的是,给定一段多人交流的长音频(通常为单通道口语对话语音,有较多的多人混叠片段),计算机能够自动地识别音频中有几个说话人,并检测出音频中每个说话人发言的起止时间戳,解决“谁在什么时候说话”(Who Spoke When)的问题,从而方便人们快速地检索和定位特定说话人的语音片段,是后续语音识别和声纹识别等模块的基础,被广泛用于会议场景的语音转写和索引等应用。
会议日程:
09:30-10:20 杜俊 中国科学技术大学语音及语言信息处理国家工程实验室副教授
演讲题目:A Study on Scenario-Dependent Speaker Diarization
演讲摘要:With the application of speaker diarization in diversified scenarios, such as telephone, meeting, broadcast, restaurant, clinic, courtroom, etc., a single type of diarization technique could not yield satisfactory performance. In this talk, we will introduce a scenario-dependent speaker diarization pipeline with a divide-and-conquer strategy. In this pipeline, different combinations of techniques are designed, including the deep-learning-based speech enhancement for preprocessing, conventional clustering-based diarization, and iterative neural diarization. As a demonstration, our scenario-dependent pipeline won the first place for all tasks of DIHARD-III challenge.
10:20-11:10 李明 昆山杜克大学电子与计算机工程副教授
演讲题目:基于深度编码的说话人日志
演讲摘要:
首先介绍近年来逐渐成为研究热点的说话人日志这一任务的背景;其次,结合近期研究成果来介绍采用有监督学习框架去展开说话人日志这一通常为无监督学习的任务;最后,拓展到从无监督学习的角度探索说话人识别这一通常为有监督学习的任务。
11:10-12:00 卜辉 AISHELL & SpeechHome 创始人兼CEO
演讲题目:AISHELL-4 多通道中文会议开源语音数据库
演讲摘要:
介绍人工智能数据开源环境,语音数据的开源现状,AISHELL开源数据介绍及会议场景多通道中文会议开源语音数据库AISHELL-4的发布,AISHELL-4数据库在会议场景里实现ASR、Speaker Diarization等相关技术的Baseline系统讲解。最后对未来语音数据开源的展望。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。