ICASSP 2026 论文预讲会由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2026 录用论文的作者进行报告交流。
ICASSP 2026 论文预讲会第六期邀请到 东芬兰大学计算语音组&香港城市大学语言学系博士生宣茜 和 香港城市大学计算学院龚子腾 做本次会议的专场分享,欢迎大家观看。
第六期-个人联合专场
时间:3月9日(周一)19:00 ~ 20:00
形式:线上
议程:每位嘉宾分享30分钟(含5分钟QA)
嘉宾&主题
嘉宾简介:宣茜,东芬兰大学计算语音组&香港城市大学语言学系博士生,师从Prof. Tomi H. Kinnunen (Interspeech 2025技术程序主席,Speaker Recognition领域谷歌引用量全球第8学者) 和计算语言学家Prof. Chunyu Kit。研究方向为声学特征提取,说话人识别,语音安全与隐私,法律与人工智能。在学术研究方面,宣茜主持过一项研究生科研创新项目(基于功率归一化倒谱系数的说话人识别算法研究),并参与芬兰国家科学院以及香港研究资助局(GRF)项目。她受邀在Interspeech 2024青年女性语音研究研讨会,Interspeech 2025语音通信安全与隐私研讨会上进行学术报告。此外,她已发表CCF会议,SCI,EI以及中文核心期刊论文共计20余篇。
分享主题:WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection
摘要:当前的语音深度伪造检测通常采用全参数微调XLSR等大模型的方式,但这面临着参数效率低及真实场景泛化性差的双重挑战。为此,我们提出一系列结合经典信号处理变换的参数高效前端,包括基于傅里叶变换的FourierPT-XLSR以及基于小波变换的WSPT-XLSR系列变体。在此基础上,我们进一步提出WaveSP-Net,这是一种将Partial-WSPT-XLSR前端与基于双向Mamba的后端相结合的新型架构。该设计将多分辨率特征注入提示嵌入中,在保持XLSR参数冻结的前提下,有助于增强对细微合成伪迹的定位能力。实验表明,WaveSP-Net在Deepfake-Eval-2024和SpoofCeleb两个高难度基准测试中均优于多项SOTA模型,以较少的可训练参数取得了显著的性能提升。
论文链接:https://arxiv.org/pdf/2510.05305
代码链接:https://github.com/xxuan-acoustics/WaveSP-NetDemo
链接:https://xxuan-acoustics.github.io/WaveSP-Net
嘉宾简介:龚子腾,香港城市大学计算学院人工智能专业,主要研究方向为自然语言处理。
分享主题 :An Unsupervised Alignment Feature Fusion System For Spoken Language-based Dementia Detection
摘要:阿尔茨海默病(Alzheimer’s Disease, AD)是一种以不可逆性认知功能衰退为特征的神经退行性疾病。由于目前尚无治愈手段,早期检测对于及时干预至关重要。在疾病早期阶段,AD常表现为言语能力的损害,同时影响语音声学特征与语言学能力。既往研究在构建基于口语的AD检测系统方面已取得初步成果,但在声学特征与语言学特征的有效融合策略方面仍缺乏一致性与高效性。针对这一问题,本研究提出了一种新颖的特征融合框架,该框架充分考虑了上述两种模态之间的相关性。为实现此目标,我们在特征融合前设计了一种无监督对齐机制,用于学习两种模态间的成对亲和关系。我们在英文数据集(ADReSS 和 DementiaBank)及中文数据集(MCGD)上对所提框架进行了评估,结果在所有数据集上均表现出良好性能。此外,我们对所学习的对齐矩阵进行了可视化分析,揭示了在AD检测中语音与语言特征之间的关联性。这些发现为未来的研究及潜在的临床应用提供了有价值的见解。
参与方式
直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。