第二期 | INTERSPEECH 2024 论文预讲会（罗切斯特大学音频信息实验室）

INTERSPEECH 2024 论文预讲会由CCF语音对话与听觉专委会、语音之家主办，旨在为学者们提供更多的交流机会，更方便、快捷地了解领域前沿。本次论文预讲会按照技术领域投稿和实验室专场两种形式进行招募，欢迎大家投稿报名。

INTERSPEECH 2024 论文预讲会第二期邀请到罗切斯特大学音频信息实验室做本次会议的专场分享，欢迎大家观看。

实验室概况
罗切斯特大学音频信息实验室（Audio Information Research Lab, AIR），由段志尧教授带领，我们的研究兴趣主要集中在计算机听觉这一新兴领域，这一领域致力于设计智能算法和系统，使之能够理解包括音乐、语音和环境声音在内的声音。这是一个跨学科领域，融合了信号处理、机器学习、心理声学、音乐理论等多个领域的知识。我们解决的基本问题包括解析多声部听觉场景（鸡尾酒会效应），以及设计新颖的应用，如声音检索和音乐信息检索。我们还将声音分析与文本和视频等其他信号模态的分析结合起来，进行多模态场景分析。我们一直在研究的各种项目包括音频源分离、自动音乐转录、音频-乐谱对齐、语音增强、语音日志记录和情绪识别、声音检索、声音事件检测和音频视觉场景理解。

实验室官网：https://labsites.rochester.edu/air/

第二期罗切斯特大学音频信息实验室【专场】时间：7月5日（周五）10:00 ~ 11:00形式：线上议程：每位嘉宾分享30分钟（含5分钟QA）

嘉宾&主题

嘉宾简介：李泽华Kcriss，本科毕业于中国传媒大学，硕士毕业于罗切斯特大学(University of Rochester)，现担任罗切斯特大学电子与计算机工程系音频信息研究实验室(AIR Lab)研究助理和罗切斯特大学医学院神经科学系听觉计算神经科学实验室研究技术员。他的研究兴趣在于语音信号处理和听觉神经编码的相关领域，包括高表现力可控语音合成，韵律建模，语音与音乐计算神经科学。Kcriss除了技术身份之外，他还是专业配音员，曾为中央电视台等国家级媒体以及众多国际知名商业品牌提供影视与广告配音服务。
分享主题：GTR-Voice：调音语音学启发的可控高表达语音合成
摘要：表达性语音合成旨在生成捕捉广泛语音外语特征的语音，包括情感和表达，尽管当前的研究主要强调情感方面，而不是专业配音演员掌握的细致的发音特征。受此启发，我们通过发音语音学的视角探索表达性语音合成。具体而言，我们定义了一个具有三个维度的框架：声门化、紧张度和共振（GTR），以指导语音产生水平的合成。借助这个框架，我们录制了一个名为GTR-Voice的高质量语音数据集，包括由一位专业配音演员发音的20句中文句子，涵盖125种不同的GTR组合。我们通过自动分类和听力测试验证了框架和GTR标注，并演示了在两个经过精细调节的表达性TTS模型上沿着GTR维度的精确可控性。我们开源了数据集和TTS模型。

论文：https://arxiv.org/abs/2406.10514Demo：gtr-voice.com

嘉宾简介：臧永宜，罗切斯特大学 (University of Rochester) 音频工程专业本科毕业生，现在 Neosensory 担任机器学习工程师。臧永宜的研究兴趣在于音频信号相关的应用机器学习领域，包括多模态和空间音频，合成歌声和语音识别，及音乐信息检索方向。他的研究成果已在 ICASSP, INTERSPEECH, AES, JAES 等国际知名会议或期刊上发表。
分享主题 ：CtrSVDD: 受控性强的歌声鉴伪基准及基线模型分析
摘要：最近的歌声合成和转换技术发展需要强大的歌声鉴伪（Singing Voice Deepfake Detection, SVDD）模型。但是，目前的SVDD数据集面临着受控性有限、深度伪造方法不够多样和版权限制等诸多挑战。在这份工作中，我们介绍了CtrSVDD，一个大规模、多样化的真实和歌声深度伪造的集合，使用最先进的方法从公开可访问的唱歌声音数据集合成的。CtrSVDD包括47.64小时的真实和260.34小时的深度伪造唱歌声音，涵盖了14种深度伪造方法，并涉及164个歌手身份。我们还提供了一个灵活的前端特征基线系统，并在我们提供的训练/开发/评估集上进行了评估。我们的基线实验表明特征选择的重要性，并凸显了需要对偏离训练分布的深度伪造方法进行泛化的需求。CtrSVDD数据集和基线系统以CC BY-NC-ND 4.0 开源。
论文：https://arxiv.org/abs/2406.02438
代码：https://github.com/SVDDChallenge/CtrSVDD2024_Baseline
Demo：https://challenge.singfake.org/

参与方式
直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇

预讲论文征集
INTERSPEECH 2024 论文预讲会按照技术领域投稿和实验室专场两种形式进行招募。

为了共创高质量的论文预讲会，我们诚挚邀请所有 INTERSPEECH 2024 作者参与到此次预讲会活动中来，也欢迎大家推荐适合此次预讲会活动的学者。

预讲论文报名方式
联系人邮箱：bd@speechhome.com

第二期 | INTERSPEECH 2024 论文预讲会（罗切斯特大学音频信息实验室）

第二期 | INTERSPEECH 2024 论文预讲会（罗切斯特大学音频信息实验室）

活动介绍

组织者