活动介绍

ICASSP 2023 论文预讲会是由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2023 录用论文的作者进行报告交流。
ICASSP 2023 论文预讲会邀请到昆山杜克大学语音及多模态智能信息处理实验室在5月14日做专场分享,欢迎大家预约观看。

实验室概况

昆山杜克大学是一所非营利性的中美合作办学机构,由美国杜克大学和中国武汉大学联合在中国江苏省昆山市创办,旨在开创世界一流的研究型综合性大学,为来自中国及全球的学生提供多样化的学术项目。语音及多模态智能信息处理实验室,Speech and Multimodal Intelligent Information Processing (SMIIP) Lab, 隶属于大数据研究中心,PI为李明老师,目前共3个研究方向,分别为智能语音处理、多模态行为信号分析、病理语音分析。
实验室主页:https://sites.duke.edu/dkusmiip/

图片

第四期

昆山杜克大学语音及多模态智能信息处理实验室(SMIIPLab)专场 
时间:5月14日(周日) 9:00 ~ 11:20
形式:线上
议程:每位嘉宾分享20分钟(含5分钟QA)
图片

嘉宾&主题

图片
嘉宾简介:程铭,武汉大学计算机科学与技术专业二年级博士生,昆山杜克大学语音及多模态智能信息处理实验室研究实习生, 研究方向为音视频说话人日志/唤醒词检测等。博士研究生在读期间参加多项国际评测,分别取得了MISP2021音视频唤醒词检测第二名,VoxSRC2022说话人日志/MISP2022音视频说话人日志第一名。
分享主题1:Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction基于序列到序列预测的特定人语音活动检测
摘要:说话人日志(Speaker Diarization)是指从一段录音或视频中自动分离和识别出不同说话人的语音片段,并将其归属到对应的说话人类别中的过程。它是语音信号处理中的一个重要研究方向,广泛应用于语音转写、音频检索、音频分析、音频识别、语音翻译等应用领域。其中,特定人语音活动检测(Target-Speaker Voice Activity Detection)作为说话人日志的一种解决方案,近些年因其在复杂场景下的良好性能而得到了很多的关注。本文提出了一种基于序列到序列的特定人语音活动检测(Seq2Seq-TSVAD)框架,可高效地同步处理多说话人下的高时间分辨率语音活动检测。实验结果显示,我们提出的方法在VoxConverse数据库和DIHARD-III Track1数据库上分别取得了4.55%和10.77%的日志错误率(DER),同时刷新了该两项数据库的最新SOTA结果。论文链接:https://sites.duke.edu/dkusmiip/files/2023/03/2023035319.pdf

分享主题2:The WHU-Alibaba Audio-Visual Speaker Diarization System for the MISP 2022 Challenge面向MISP 2022挑战赛的武汉大学-阿里巴巴音视频说话人日志系统
摘要:说话人日志(Speaker Diarization)指从一段录音和视频中自动识别出不同的说话人,并检测出各说话人相应的语音活动区间的过程,又称“谁在什么时间说?(Who Spoke When)”问题。本次MISP 2022挑战赛中,团队在此前提出的 “序列到序列预测的特定人语音活动检测(Seq2Seq-TSVAD)”框架上引入了基于ResNet3D结构的前端特征提取器处理每个说话人的唇动(Lip-Motion)视频信号。从数据增强的角度,除了常规的对音频加噪音/混响和视频的裁剪/翻转等基本操作外,额外采用了说话人层面的负采样(Negative Sampling)和混合(Mix-up)技术。通过同步地对多说话人和多模态信息进行联合建模,在本次比赛的验证集上取得了8.82%的日志错误率(Diarization Error Rate),显著优于官方提供的13.88%的基线和其他单位系统。在音视频说话人日志赛道中,稳居第一。
论文链接https://sites.duke.edu/dkusmiip/files/2023/03/whu_alibaba.pdf

图片
嘉宾简介:王浩旭,武汉大学计算机学院二年级硕士生,昆山杜克大学语音及多模态智能信息处理实验室研究实习生,研究方向为语音识别,语音唤醒,多模态语音唤醒/识别。已在领域内重要会议发表论文多篇,于ICASSP 2022的语音信号处理挑战赛(MISP Challenge)取得赛道一音视频唤醒亚军的成绩。
分享主题:The DKU Post-Challenge Audio-Visual Wake Word Spotting System for the 2021 MISP Challenge: Deep AnalysisMISP 2021挑战赛后的DKU音视频唤醒词识别系统:深度分析
摘要:本文进一步探讨了我们之前在ICASSP 2022 MISP挑战赛音视频唤醒词识别赛道中排名第二的音视频唤醒词识别系统。首先,我们研究了一种基于三维和二维卷积的鲁棒的单模态方法,并为我们的系统采用了简单注意模块(SimAM)以提高性能。其次,我们探索了数据增强方法的不同组合策略,以获得更好的性能。最后,我们研究了多模态融合机制,包括分数融合、级联融合和基于深度神经网络的融合。我们提出的多模态系统利用多模态特征,使用互补的视觉信息来缓解复杂声学场景中纯音频系统的性能下降。我们的系统在竞赛数据库的评估集中获得了2.15%的错误拒绝率和3.44%的错误报警率,与以前的系统相比,实现了21%的相对改进,达到了新的最先进的性能。
论文链接https://sites.duke.edu/dkusmiip/files/2023/05/wws_c1.pdf
相关开源资源https://github.com/Mashiro009/DKU_WWS_MISP

图片
嘉宾简介:王兴明,武汉大学计算机学院三年级硕士生,昆山杜克大学语音及多模态智能信息处理实验室研究实习生,研究方向为语种/声纹识别,伪造语音检测。
分享主题:Exploring universal singing speech language identification using self-supervised learning based front-end features基于自监督学习前端特征的通用歌唱语音语种识别方法
摘要:尽管当前在语种识别任务上已经有了较好的性能表现,但目前主流仍缺乏大规模的歌唱数据语种语料库来支持歌唱语种识别任务的研究。本文提出了一个超过3200小时的数据集用于歌唱语种识别任务,称作Slingua。作为基线系统,我们探索了两种自监督学习模型,分别为WavLM和Wav2vec2.0,作为歌唱语言识别和通用歌声-语音语种识别任务的前端特征提取模块。我们将这类SSL特征与传统的手工特征Mel谱特征性能进行了对比。此外,通过加入说话语种语料库Voxlingua107子集的训练,我们比较了通用语种识别任务的性能差异。最终结果显示,基于SSL的特征表现出更强的泛化能力,特别是针对低资源和未知的场景。
Slingua数据集可以通过该链接获取https://github.com/Doctor-Do/Slingua
论文链接https://sites.duke.edu/dkusmiip/files/2023/05/2023040836.pdf

图片
嘉宾简介:蔡泽鑫,杜克大学电子与计算机工程系四年级博士生(昆山杜克大学李明老师联合指导),主要研究方向为语音合成,语音转换以及语音鉴伪。
分享主题:Waveform Boundary Detection for Partially Spoofed Audio针对部分篡改音频的波形边界检测系统
摘要:部分篡改/伪造音频是指将真实语音替换或插入合成或自然音频片段,从而改变音频的原始内容,它是音频伪造的一种情景。无论是部分篡改音频还是其他伪造合成音频,在滥用时都会对社会安全构成一定威胁,因此检测此类伪造音频是一个重要的研究领域。在本次分享会上,我们将分享我们提出的一种基于深度学习和预训练模型的帧级波形边界检测系统,该系统可以检测部分伪造音频并定位被篡改的部分。我们的方法是在ADD2022挑战赛提供的数据集上进行训练和评估的。我们通过评估不同的声学特征和网络配置来验证我们的检测模型。结果显示,我们的检测系统在ADD2022挑战赛测试集上取得了6.58%的等错误率(EER)。
论文链接https://sites.duke.edu/dkusmiip/files/2023/03/ADD_challenge.pdf

图片
嘉宾简介:蔡丹蔚,杜克大学电子与计算机工程系四年级博士生(昆山杜克大学李明老师联合指导),主要研究方向为声纹识别。
分享主题1:Pretraining Conformer with ASR for Speaker Verification基于语音识别预训练的说话人识别方法
摘要:本文提出了一种在ASR预训练的Conformer上进行微调来避免过拟合和提高说话人识别模型性能的方法。ASR预训练的Conformer能够建模语音信号中的语音信息,从而有助于在不同语音单元中建模说话人特征,并利用预先学习的语音识别信息帮助模型学习说话人特征。实验表明,在大小不同的模型上,使用ASR预训练Conformer可以带来显著的性能提升。最好的模型(模型大小130.94M)在Voxceleb1-O、Voxceleb1-E和Voxceleb1-H上分别达到了0.48%、0.71%和1.54% 的等错误率(EER);相比没有ASR预训练的说话人识别模型,我们的方法在这三个测试集上分别降低了50%,42%与34%的EER。
论文链接https://sites.duke.edu/dkusmiip/files/2023/05/Template.pdf

分享主题2:Identifying Source Speakers for Voice Conversion based Spoofing Attacks on Speaker Verification Systems在说话人验证中识别基于语音转换欺诈攻击的源说话人
摘要:说话人识别系统中,大多数针对语音转换欺骗攻击的方法都是为了区分真实语音和伪造语音,而没有提供源说话人识别的能力。本文提出源说话人识别:指的是给定转换后的语音,推断出原始说话人的身份。我们提出了一种简单而有效的方法,即在说话人识别网络训练时,将转换后的语音数据与原始说话人身份标签一起加入到训练数据集中。这样可以促使说话人识别网络从转换后的语音中提取源说话人信息,同时保持一个可区分性强的说话人空间。实验结果表明,在白盒识别条件下(即训练和测试使用相同的语音转换模型),源说话人识别是可行且有效的。此外,在黑盒识别条件下(即训练和测试使用不同或未知的语音转换模型),使用多个不同类型的语音转换模型生成训练数据可以提高源说话人识别性能。这说明不同语音转换算法生成的伪造语音之间存在一些共性特征,这种共性特征使得黑盒源说话人识别成为可能。
论文链接https://sites.duke.edu/dkusmiip/files/2023/03/icassp23_danwei...

参与方式

直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇
图片

论文征集

ICASSP 2023 论文预讲会面向全球线上招募,结合定向邀请与自选投稿的方式,来选择预讲会的嘉宾
图片
为了共创高质量的论文预讲会,我们诚挚邀请所有 ICASSP 2023 作者参与到会议中来,也欢迎大家推荐适此会议论文分享的学者。
投稿邮箱jack@speechhome.com

发布于 2023-05-13
0 条评论
组织者
主办方
CCF语音对话与听觉专委会
语音之家