活动介绍

ICASSP 2023 论文预讲会是由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2023 录用论文的作者进行报告交流。

ICASSP 2023 论文预讲会邀请到清华大学人机语音交互实验室(THUHCSI)在5月11日、5月12日分别做两期专场分享,本文介绍第二场相关内容,欢迎大家预约观看。

实验室概况

清华大学人机语音交互实验室(THUHCSI)聚焦人工智能场景下的智能语音交互技术研究,包括语音合成、语音识别、说话人识别、语音增强、情感计算、自然语言理解与生成、数字人建模与生成、多模态人机交互等。实验室与香港中文大学联合成立了“清华大学-香港中文大学媒体科学、技术与系统联合研究中心”,与国内外多个重点大学、互联网智能语音交互公司有着紧密的友好合作关系。

图片

第三期

清华大学人机语音交互实验室(THUHCSI)专场(下)
时间:5月12日(周五) 18:30 ~ 21:10
形式:线上
议程:每位嘉宾分享20分钟(含5分钟QA)
图片

嘉宾&主题

图片
嘉宾简介:孙世坤,清华大学计算机系二年级博士生,研究方向为图像生成。
分享主题:MSNet: 基于多情感语义空间的情感感知图像风格转换
MSNet: A Deep Architecture using Multi-Sentiment Semantics for Sentiment-Aware Image Style Transfer
摘要:情感在人们对图像的感知中起着至关重要的作用。为了将情感信息纳入图像风格转换任务,以获得更好的情感感知性能,我们引入了一个名为情感感知图像风格转换的新任务。为了解决这个问题,我们首先引入了一个新的多情感语义空间(MSS-Space)来捕捉情感语义的不确定性和复杂性质。利用MSS-Space,我们通过最小化它们在MSS-Space中的距离来建立图像的视觉属性和多情绪语义之间的紧密联系,然后提出多情绪风格转移网络(MSNet)。实验表明,与三个竞争性模型相比,我们提出的MSNet能生成更明确的图像,并能更好地保留关键物体的完整性、局部细节和引发的情绪分布。

图片
嘉宾简介:宋星辰,2022年毕业于清华大学计算机系,研究方向是语音识别
分享主题:TrimTail:语音识别延迟优化中的暴力美学
TrimTail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length Penalty
摘要:在语音技术领域,尖峰漂移问题一直都是笼罩在流式语音识别晴朗天空上的一朵吹不散的乌云。此前的研究者们无一例外地都将目光和认知投射到了 损失函数 的改进上,这其中的典型代表为 Google 的 FastEmit 和 K2 的 Delay-Penalized Transducer。而在本文中,我们发现了解决尖峰漂移还有一种新的视角:那就是“ 数据 ”。深度学习的奥秘,绝大部分隐藏在数据中,我们深信:模型的潜能上限不在于模型结构/训练技巧,而在于数据。摆脱了损失函数改进的思维定式,从数据的改进出发,TrimTail 应运而生。

图片
嘉宾简介:徐耀勋,清华大学深圳国际研究生院一年级硕士生,研究方向是语音技术处理,语音识别。分享主题:基于conformer的热词增强方法
CB-Conformer: Contextual Biasing Conformer for Biased Word Recognition
摘要:由于源域和目标域不匹配的问题,如何充分利用热词信息(biased word)对提升语音识别模型的性能至关重要。在本工作中,我们提出了CB-Conformer,通过在传统Conformer中引入上下文偏置模块和自适应语言模型来提高热词识别的性能。上下文偏置模块结合了音频片段和上下文信息,参数量只占原始Conformer模型参数的0.2%。自适应语言模型根据热词召回率和精确度修改热词在语言模型内部的权重,从而更加专注于热词识别;与普通的固定权重的语言模型相比,所提的自适应语言模型与原始语音识别模型更为契合。此外,我们基于WenetSpeech数据集构建并开源了一个普通话热词数据集。实验表明,与Conformer相比,所提出的方法的语音识别字错误率降低了15.34%,热词识别召回率提高了14.13%,热词识别F1-score提高了6.80%。

图片
嘉宾简介:杨玉杰,清华大学深圳国际研究生院三年级硕士生,研究方向为语音唤醒。
分享主题:自定义语音唤醒中的关键词自适应声学模型剪枝
Keyword-Specific Acoustic Model Pruning for Open-Vocabulary Keyword Spotting
摘要:开放式词汇KWS系统允许用户自定义唤醒词,但其应用受到模型大小的限制。在本文中,我们设计了一个动态声学模型,其参数与输入有关。我们发现,具有相似发音的音频帧产生相似的子网络,不同的参数有助于识别不同的音素。基于这种观察,我们进一步约束具有相同音素伪标签的子网络之间的结构相似性,从而可以修剪出识别不同音素的独立子网络。当用于端到端KWS系统时,识别关键词中音素的子网络将被合并为一个特定于关键词的声学模型,而那些对识别关键词没有贡献的参数将被剪枝掉。相比于基线模型,所提出的方法可以修剪80%以上的参数而不损失性能。

图片
嘉宾简介:王媛媛,清华大学深圳国际研究生院二年级硕士生,研究方向是说话人识别、说话人日志
分享主题:感知难度的说话人识别数据增强
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification
摘要:数据增强对于提升深度神经网络模型的泛化能力和鲁棒性是至关重要的。目前说话人识别中常用的增强方法大都是直接在语音信号级别上进行数据增强,这种方式不但耗时,而且增强的样本缺乏多样性。在本文中,我们针对说话人识别提出了一种基于难度感知的数据增强(DASA)方法,该方法可以在说话人特征空间中生成多样化的训练样本,同时引入的额外计算成本可以忽略不计。首先,我们从说话人相关的协方差矩阵中获得增强方向,以此扰动说话人特征来增加训练样本。其次,在训练过程中为了估计出更准确的协方差矩阵,因此我们引入了DAAM-Softmax来获得更鲁棒的说话人特征。最后,我们假设增强的样本数量达到无穷大,并结合DAAM-Softmax推导出DASA的封闭上界形式,从而实现了更好的兼容性和更高的效率。我们进行了充分的实验,结果表明所提出的方法可以显著改进说话人识别的性能。

图片
嘉宾简介:陈鋆,清华大学深圳国际研究生院计算机技术方向二年级硕士生,研究方向包括表现力语音合成、语音增强、说话人提取、语音修复与音乐生成。曾发表多篇ICASSP/InterSpeech论文,并获得ICASSP 2023 Speech Signal Improvement Challenge与ICASSP 2023 DNS Challenge冠军。
分享主题:基于子带交互的语音增强方法Inter-SubNet
Inter-SubNet: Speech Enhancement with Subband Interaction
摘要:基于子带的语音增强方法通过共享参数的模型并行处理子带,以学习局部频谱的共性,进而达到降噪的目的。通过这种方式,它们以较少的参数取得了显著的降噪效果。然而,在一些复杂的声学环境中,由于缺乏全局频谱信息,这些基于子带的语音增强方法的性能会出现严重的下降。为此,在本文中,我们提出了子带交互方法(Subband Interaction)作为一种补充全局频谱信息(如跨频带依赖和全局频谱模式)的新方式,并在此基础上提出了一个新的轻量级单通道语音增强框架,称为Inter-SubNet。在DNS Challenge - InterSpeech 2021数据集上的实验结果表面,我们所提出的InterSubNet相较于子带模型性能有了巨大的提升,并超过了其它最先进的语音增强方法。这证实了我们所提出的子带交互方法的有效性。

图片
嘉宾简介:林久鑫,清华大学深圳国际研究生院人工智能方向二年级研究生,研究方向为语音增强与音频生成。
分享主题:基于SepFormer的交叉注意力音视频目标说话人语音提取方法
AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target  Speaker Extraction
摘要:视觉信息可以作为目标说话人提取的一个有效线索,对提高提取性能至关重要。在本文中,我们提出了AV-SepFormer,一个基于SepFormer的双尺度注意力模型,利用交叉和自注意力融合和建模来自音频和视觉的特征。AV-SepFormer将音频特征分割成若干块,使其分辨率与视觉特征相当,然后采用交叉与自注意力来对多模态特征进行建模。此外,我们还使用了一种新型的二维位置编码,该编码引入了块间和块内的位置信息,并获得了比传统位置编码更显著的收益。我们的模型有两个优点:音频分块后特征的时间分辨率与视觉特征相同,这缓解了音频和视频采样率不一致带来的危害;通过结合交叉和自注意力,特征融合和语音提取过程被统一在一个注意力范式中。实验结果表明,AV-SepFormer明显优于其它现有方法。

图片
嘉宾简介:童玮男,清华大学深圳国际研究生院计算机技术方向二年级研究生,研究方向为语音分离与音乐生成。
分享主题:TFCNet:用于语音分离的时频域校正网络
TFCNet: Time-Frequency Domain Corrector For Speech Separation
摘要:目前主流的语音分离方法是基于时域的方法,即直接使用神经网络模型对语音波形信息进行编码,提取特征,最终解码得到分离后的语音。虽然时域方法在语音分离上取得突出的性能,但它在编码上存在着不稳定性。这主要是因为时域方法在编码中用可学习的卷积代替了语音信号处理中的短时傅里叶变换(STFT),这种方法虽然能学习到一定的隐藏频谱空间,但不一定和真实的频谱空间一致,导致分离的语音和真实的语音在频谱上存在幅度及相位误差。在本文中,我们提出了TFCNet,其由时域的分离器和频域的校正器构成。频域校正器针对时域分离器的不足而特别进行设计,以便从幅度和相位两部分纠正错误的频谱信息。在WSJ0-2mix和Libri-2mix数据集上的实验结果表明,加入校正器后分离性能有了巨大提升,超过了之前最先进的语音分离方法。

参与方式

直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇
图片

论文征集

ICASSP 2023 论文预讲会面向全球线上招募,结合定向邀请与自选投稿的方式,来选择预讲会的嘉宾
为了共创高质量的论文预讲会,我们诚挚邀请所有 ICASSP 2023 作者参与到会议中来,也欢迎大家推荐适此会议论文分享的学者。
投稿邮箱:jack@speechhome.com

发布于 2023-05-11
0 条评论
组织者
主办方
CCF语音对话与听觉专委会
语音之家