INTERSPEECH 2024 论文预讲会由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。本次论文预讲会按照技术领域投稿和实验室专场两种形式进行招募,欢迎大家投稿报名。
INTERSPEECH 2024 论文预讲会第六期邀请到武汉大学 & 昆山杜克大学做本次会议的分享,欢迎大家观看。
第六期
武汉大学 & 昆山杜克大学【联合专场】
时间:7月29日(周一)19:00 ~ 21:30
形式:线上
议程:每位嘉宾分享30分钟(含5分钟QA)
嘉宾&主题
嘉宾简介:林宇珂,武汉大学计算机学院&昆山杜克大学SMIIP实验室硕士生,研究方向为说话人识别&说话人日志。
报告题目 :VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark
摘要:我们提供了一个大型音视频说话人识别数据集VoxBlink2,其中包含来自超过11万名说话人的大约1000万段音视频片段。该数据集是VoxBlink数据集的扩展,我们通过改进原有的数据挖掘流程,在提升了数据质量的同时,更包含了更广泛的说话人和更多样性的场景。随后,我们讨论了了训练策略、数据规模和模型复杂性对说话人验证的影响,最终在VoxCeleb1-O测试集上建立了EER为0.170%和minDCF为0.006%的单模型性能。另外,我们提出了开放集说话人识别任务,旨在将测试语音片段与已知的注册说话人进行匹配,或被归类于集外说话人。针对该任务,我们设计了具体的基准和评估协议。
数据集网站:https://VoxBlink2.github.io
代码仓库:https://github.com/VoxBlink2/ScriptsForVoxBlink2
元文件和模型:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
论文地址:https://arxiv.org/abs/2407.11510
嘉宾简介:陈弘扬,武汉大学计算机学院/国家多媒体软件工程技术研究中心硕士生,研究方向:Lombard效应在可懂度增强中的应用。
报告题目:Exploring Sentence Type Effects on the Lombard Effect and Intelligibility Enhancement: A Comparative Study of Natural and Grid Sentences
摘要:本研究探讨了句子类型对Lombard效应和可懂度增强的影响,重点是自然句和网格句之间的比较。我们使用 Lombard Chinese-TIMIT (LCT) 语料库和 Enhanced MAndarin Lombard Grid (EMALG) 语料库,分析了不同噪音水平下语音和声学特征的变化。结果表明,网格句子比自然句子产生更明显的Lombard效应。然后,我们在 LCT 和 EMALG 语料库上分别开发并测试了一个正常到Lombard转换模型。通过主观和客观评估,自然句子在提高可懂度时保持语音质量方面更胜一筹。相比之下,由于Lombard效应更加明显,网格句子可以提供更高的可懂度。这项研究为增强嘈杂环境中的语音交流提供了一个有价值的视角。
论文地址:https://arxiv.org/pdf/2309.10485
嘉宾简介:李济圳,武汉大学计算机学院/国家多媒体软件工程技术研究中心硕士生,主要研究方向为语音增强。
报告题目:Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer
摘要:近年来,基于卷积神经网络和Transformer的语音增强方法已被证明可以有效地捕获频谱图上的时频信息。然而,语音特征各通道之间的相关性却没有得到充分的研究。从理论上讲,不同卷积核得到的每个语音特征通道映射包含不同尺度的信息,具有很强的相关性。为了填补这一空白,我们提出了一种新的双分支结构,称为通道感知双分支Conformer(CADB-Conformer),它有效地分别探索不同通道之间的长期时间和频率相关性,以提取通道关系感知的时频信息。在DNS-Challenge 2020数据集上进行的消融研究显示了利用通道特征的重要性,同时显示了通道关系感知时频信息对语音增强的重要性。大量的实验也表明,该模型的性能优于现有的方法,而且计算成本很低。
论文地址:https://arxiv.org/abs/2407.06524
嘉宾简介:林洁,武汉大学计算机学院/国家多媒体软件工程技术研究中心硕士生,主要研究方向为基于鼾声信号的OSAHS诊断研究。
报告题目:SimuSOE: A Simulated Snoring Dataset for Obstructive Sleep Apnea-Hypopnea Syndrome Evaluation during Wakefulness
摘要:阻塞性睡眠呼吸暂停-低通气综合征(Obstructive Sleep Apnea-Hypopnea Syndrome, OSAHS)是一种由上气道阻塞引起的慢性呼吸障碍。以往的研究通过基于睡眠鼾声或语音信号数据集训练的机器学习系统来进行OSAHS评估。然而,构建用于训练精确、快速的 OSAHS 评估系统的数据集提出了一项挑战,因为:1)收集睡眠鼾声非常耗时;2)语音信号在反映上气道阻塞方面存在局限性。本文提出了一种新的用于 OSAHS 评估的鼾声数据集,名为 SimuSOE,其中引入了一种新颖、省时的鼾声收集方法来解决上述问题。我们特别采用了模拟鼾声,即患者在清醒状态下主动发出的一种鼾声,以取代睡眠鼾声。实验结果表明,清醒状态下的模拟打鼾信号可作为 OSAHS 初步筛查的有效特征。论文地址:https://arxiv.org/abs/2407.07397
嘉宾简介:沈茹冰,武汉大学国家网络安全学院硕士生,主要研究方向为语音合成。
报告题目:FA-GAN: Artifacts-free and Phase-aware High-fidelity GAN-based Vocoder
摘要:基于生成对抗网络 (GAN) 的声码器在语音合成中以高质量和快速推理速度获得了广泛关注。然而,仍然存在许多明显的频谱伪影,导致合成语音的质量下降。在这项工作中,我们采用了一种基于 GAN 的新型声码器,旨在减少伪影和高保真度,称为 FA-GAN。为了抑制高频分量中非理想上采样层引起的混叠伪影,我们在生成器中引入了抗混叠双反卷积模块。为了减轻模糊伪影并丰富频谱细节的重建,我们提出了一种新颖的细粒度多分辨率实部和虚部损失来协助相位信息的建模。实验结果表明,FA-GAN 在提升音频质量和减轻频谱伪影方面优于比较方法,并且在应用于看不见的说话人场景时表现出优异的性能。
论文地址:http://arxiv.org/abs/2407.04575
参与方式
直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇
预讲论文报名联系人邮箱:bd@speechhome.com
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。