ICASSP 2026 论文预讲会由CCF语音对话与听觉专委会、语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2026 录用论文的作者进行报告交流。
ICASSP 2026 论文预讲会第八期邀请到 听觉智能计算(西交利物浦大学)研究团队 做本次会议的专场分享,欢迎大家观看。

第八期-听觉智能计算(西交利物浦大学)研究团队【专场】
时间:3月17日(周二)19:00 ~ 21:00
形式:线上
议程:每位嘉宾分享20分钟(含5分钟QA)

嘉宾&主题
嘉宾简介:Yuxuan Liu,听觉智能计算(西交利物浦大学)研究团队博士研究生,师从李圣辰教授。主要研究方向是音频系统的安全与隐私保护,重点聚焦于生成式音频模型的成员推断攻击、对抗攻击、可感知性评估,以及相应防御机制。
分享主题:Membership Inference Attack Against Music Diffusion Models via Generative Manifold Perturbation
摘要:成员推断攻击(Membership Inference Attacks, MIAs)用于判断某一特定音频片段是否曾被用于训练模型,因此是审计生成式音乐模型版权合规性的重要工具。然而,在实际中,基于损失的信号(例如重建误差)与人类感知之间的一致性较弱,导致其在司法取证所要求的低假阳性率条件下难以实现良好的区分能力。我们提出了潜在稳定性对抗探针,这是一种白盒方法,用于度量反向扩散过程中的一种几何性质:在某个中间扩散状态下,为了跨越一个固定的感知退化阈值,所需的最小时间归一化扰动预算。我们发现,训练成员样本由于位于更稳定的区域,因此表现出显著更高的退化代价。在计算量匹配且阈值固定为 τ = P95 的条件下,LSA-Probe 在 DiffWave 和 MusicLDM 上,相较于最佳基线方法,将 1% FPR 下的 TPR 提升了 3 到 8 个百分点。这些结果表明,局部生成稳定性能够为音频扩散模型提供一种可靠的成员性信号。
论文链接:https://arxiv.org/abs/2602.01645
代码链接:https://kaslim.github.io/lsa-probe/
Demo链接:https://kaslim.github.io/lsa-probe/
嘉宾简介:Yizhou Tan,西交利物浦大学博士研究生,主要研究方向为领域自适应,小样本学习、主动学习与声学大模型。他在声音事件检测及音频标注领域具有深厚的研究积累 ,其学术成果发表于 IEEE/ACM TASLP 等音频信号处理顶级期刊。
分享主题1 :Reframing Audio Data Annotation as Domain Adaptation Process: A Multi-Indicator Active Learning Framework
摘要1:高质量的标注数据集是训练高性能音频模型的基石,但人工标注过程往往耗时且昂贵 。现有的主动学习(Active Learning)方法大多基于固定类别集合(Fixed-set Paradigm),难以有效应对实际标注中新类别不断涌现的“扩张集”场景(Expanding-set Paradigm) 。本报告提出将音频标注过程重构为一个领域自适应问题,通过最小化已标注子集与全量数据集之间的分布差异来统一这两种范式 。基于此理论,我们设计了多指标主动学习框架(MIAF) :核心指标(DSI):引入“领域偏移影响(Domain Shift Impact)”指标,定量衡量样本对缩小分布差异的贡献 。层次化机制:结合多样性(Diversity)、密度(Density)和离群度(Outlierness)指标,分别针对固定集和扩张集场景进行样本优化选择 。实验证明,MIAF 在 ESC-50、UrbanSound8K 等四个多样化的音频数据集上均显著优于现有的主动学习方法,在有限的标注预算下不仅提升了模型准确率,更大幅加快了对未知类别的覆盖速度 。
分享主题2:Domain Adaptation of Few-shot Bioacoustic Event Detection in Different Environments
摘要2:少样本生物声学事件检测旨在利用极少数标注样本实现对目标动物声音的监测 。然而,在实际野外部署中,环境的动态变化会导致背景声音的特征分布发生偏移,产生“领域漂移”问题 。本研究识别了由这种漂移引起的两种关键偏差:少样本学习中常见的采样偏差,以及易被忽视的语义特征偏差——即新环境下的背景声音被错误地识别为目标事件 。为解决上述问题,我们提出了一个统一的 FS-BAED 框架:1.特征增强: 在预训练阶段结合对比学习与 Mixup 数据增强策略,提升模型对细粒度特征的提取能力,从而减轻采样偏差 。2.偏置校准: 提出偏置校准分类器,通过计算“语义匹配得分”识别并过滤偏离已知分布的背景样本,同时利用条件香农熵优化决策边界,协同校准两种偏差 。实验结果表明,在 DCASE 2022 任务数据集及模拟的复杂多变环境下,该框架在固定环境基准上实现了 1.47% 的 F-measure 提升,而在多变环境下的提升幅度超过 21%,显著增强了生物声学监测系统在实际野外应用中的鲁棒性 。
嘉宾简介:Peihong Zhang,西交利物浦大学博士研究生。主要研究方向为声学信号领域泛化与课程学习。
分享主题:DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification under Domain Shift
摘要:声景分类是机器听觉中的基础任务,旨在根据音频片段识别其所处的环境类别。然而在实际应用中,不同录音设备的频率响应、空间部署及采集条件往往存在差异,极易引发显著的域偏移,导致模型在未见设备上的泛化能力大幅下降;当面临标注数据受限的情况时,这一问题尤为严峻。现有的领域泛化研究大多聚焦于数据增强或模型结构的改进,这往往会大幅提升训练成本。我们试图探索在不改变现有模型结构和原始数据的前提下,仅通过优化数据参与训练的顺序来提升模型的泛化能力,且不引入任何额外的计算成本。针对上述挑战,我们提出了 DDSC,即一种动态双信号课程学习策略。该方法在每个训练轮次中实时计算两类互补信号:一类反映样本的“域不变性”,另一类反映模型的“学习进展”;随后,利用动态调度机制将这两类信号融合为样本权重,引导模型在训练前期优先学习特征稳定、跨设备一致性高的样本,而在后期逐步攻克更复杂、设备依赖性强的样本。DDSC 具有轻量级和架构无关的特性,且不会增加推理阶段的额外开销。在 DCASE 2024 Task 1 官方基准测试协议下,DDSC 在多种基线模型和不同的标签预算下均实现了跨设备性能的持续提升。
嘉宾简介:Zhixin Li,西交利物浦大学本科生,主要研究方向为数据高效智能声学分析,聚焦心音分割、声景分类与多模态心血管信号建模。
分享主题 :TopSeg: A Multi-Scale Topological Framework for Data-Efficient Heart Sound Segmentation
摘要:心音分割是智能听诊和辅助心血管诊断中的基础任务,其目标是将心音信号划分为 S1、收缩期、S2 和舒张期。现有深度学习方法虽然有效,但大多依赖时频特征和大量专家标注数据,在小样本训练和跨数据集测试时容易出现性能下降,限制了实际部署。针对这一问题,本报告介绍 TopSeg,一种面向数据高效心音分割的多尺度拓扑框架。该方法利用拓扑数据分析,从全局节律、单个心动周期以及 S1/S2 局部细节三个时间尺度提取稳定的拓扑表示,再结合轻量级时序卷积网络和带生理约束的解码策略,实现对心音关键阶段的稳健分割。在多个数据集上的实验显示,TopSeg整体优于各类基线方法。消融实验表明,三尺度拓扑特征和 H0/H1 联合建模都能有效提升分割精度与跨数据集泛化能力。
嘉宾简介:Yitian Ding,国际关系学院硕士研究生在读,主要研究方向为语音安全与说话人验证,聚焦于语音转换后的源说话人追踪任务。
分享主题:跨域对比学习与动态阈值校准的源说话人追踪方法
摘要:语音转换技术的快速进步对自动说话人验证构成了安全威胁,源说话人追踪任务随之应运而生,旨在对转换语音的原始说话人身份进行验证。该任务面临转换语音与真实语音间的域偏移,以及类内多峰结构带来的挑战,导致说话人嵌入特征分布失稳、阈值失配。针对这些问题,本文提出融合动态阈值校准的跨域对比学习统一范式:训练阶段优化联合ACC损失,融合域对齐的InfoNCE损失、降低类内离散度的IS-CDR损失与质量感知校准的质量回归损失;评估阶段采用全局中心化结合自适应分数归一化的中心式AS-Norm方法实现分布感知的分数计算。在2024年源说话人追踪挑战赛评测基准上,所提系统在16个测试集上取得16.509%的平均等错误率,性能优于赛事冠军系统且较官方基线提升4.104个百分点,证实该方法显著增强了源说话人追踪任务的跨域泛化能力与分数可校准性。
参与方式
直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇
预讲会征集
ICASSP 2026 论文预讲会面向全球线上招募,结合定向邀请与征集报名的方式,来选择预讲会的嘉宾。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。