ICASSP 2025 论文预讲会由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2025 录用论文的作者进行报告交流。
ICASSP 2025 论文预讲会邀请到武汉大学在3月13日和3月14日分别做两期专场分享,本文介绍第一场相关内容,欢迎大家预约观看。
第六期:武汉大学(一)【专场】
时间:3月13日(周四)19:00 ~ 20:30
形式:线上
议程:每位嘉宾分享30分钟(含5分钟QA)
嘉宾&主题
嘉宾简介:黄逸焕,就读于武汉大学国家网络安全学院,博士一年级,导师为任延珍教授。主要研究方向是语音对抗样本生成和检测,说话人脸生成和伪造检测。
分享主题:FreqSense: Universal and Low-Latency Adversarial Example Detection for Speaker Recognition with Interpretability in Frequency Domain
摘要:说话人识别系统特别容易受到对抗样本的攻击。为了缓解这些攻击,对抗样本检测系统被广泛使用。为了克服现有方案检测准确率低、泛化能力差和延迟高的局限性,本文提出了一种基于频率分布特征的对抗样本检测方案 FreqSense。FreqSense可以低延迟地检测各种未知的对抗样本攻击,并在检测过程中提供可解释性。FreqSense的基本思想是对抗样本通常在说话人身份相关的特定频带中引入精心设计的噪声。因此,利用这些频带的分布变化可以有效区分对抗样本和良性音频。FreqSense通过将时频变换技术与自注意力机制相结合来建模频率分布特征,并使用ResNet分类器来区分对抗样本和良性音频。实验结果表明,FreqSense的整体检测准确率达到99.2%。当面对未知的对抗样本攻击时,FreqSense 的检测准确率达到98.3%,且检测延迟仅有0.0014秒。论文链接:https://github.com/Yihuan-qaq/FreqSense
嘉宾简介:张会玉,武汉大学计算机学院博士研究生二年级,导师为涂卫平教授,主要研究方向是语音编解码。
分享主题 :Attention Weighting and Conditional Entropy-driven Quantization Loss for Neural Audio Codecs
摘要:现有的端到端神经编解码器在保持音频质量方面取得了进展,但在实现精确量化时仍面临挑战。它们在量化过程中忽视了特征的重要性,导致量化误差分布无法准确反映潜在特征的实际重要性,且对异常数据敏感。为此,我们提出了AW-CEQCodec,通过集成注意力加权(AW)模块和条件熵驱动的量化(CEQ)损失,改进了量化过程。AW模块在量化前增强关键特征,减少量化误差,并在量化后恢复全局细节,提升重构质量。CEQ最小化潜在特征与量化特征之间的不确定性,有效减少失真。实验结果表明,该方法在低至0.5 kbps比特率下显著优于现有方法,提升了音频质量,验证了其有效性。
嘉宾简介:李济圳,武汉大学计算机学院硕士研究生二年级,导师为涂卫平教授,主要研究方向是单通道语音增强。
分享主题:Improving Speech Enhancement by Cross- and Sub-band Processing with State Space Model
摘要:最近,以 Mamba 为代表的状态空间模型(SSM)在语音增强等任务中表现出卓越的性能。然而,由于子带特征存在显著差异,权重共享的 SSM推理能力受限。此外,跨带处理时SSM 可能会遗忘某些低能量的高频信息,使得高频带语音结构的恢复变得困难。因此,我们提出Cross- and Sub-band Mamba(CSMamba),其频带分割模块帮助 SSM 灵活处理不同的子带特征;此外,频谱恢复模块的引入缓解了SSM遗忘高频段低能量信息的问题。实验结果表明,CSMamba 在性能上优于几种最先进的语音增强方法,同时计算量更少。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。