【语音之家】AI技术沙龙 — OSUM：学术界有限资源推进开放语音理解大模型

由CCF语音对话与听觉专委会、西北工业大学音频语音与语言处理研究组、语音之家、希尔贝壳共同主办的【语音之家】AI技术沙龙 — OSUM：学术界有限资源推进开放语音理解大模型，将于2025年2月27日19:00-20:00线上直播，欢迎大家预约观看。

沙龙简介

大型语言模型（LLMs）在各种下游任务中取得了显著进展，启发了业界对语音理解语言模型（speech understanding language models, SULMs）的开发，以期实现基于语音情感、性别等副语言的高表现力交互。然而，大多数先进的SULMs是由行业头部公司开发的，这消耗了大规模的数据和计算资源，而这些在学术界并不容易获得。此外，虽然训练好的模型和推理代码开源，但训练框架和数据处理流程依然缺乏透明度，这也为进一步研究产生了障碍。为此我们提出了OSUM，一个开放的语音理解模型，旨在探索在有限的学术资源下训练SLUMs的潜力。OSUM模型将Whisper编码器与Qwen2 LLM相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用ASR+X训练策略，OSUM通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。除了提供强大的性能，OSUM还强调透明度，我们提供公开可用的代码，并详细介绍了数据处理流程，以期为学术界提供有价值的参考。通过这样做，我们旨在加速先进SULM技术的研究和创新。

报告嘉宾

嘉宾简介：邵琪杰，西北工业大学博士生，主要从事语音识别研究，如多口音、多语种语音识别。研究成果涉及低资源数据表征挖掘、多语种自监督模型、Speech LLM等。OSUM语音理解大模型项目技术负责人。以第一作者身份在IEEE TASLP、Interspeech等期刊和会议发表论文5篇，曾在字节跳动、华为等公司合作研究。

嘉宾简介：耿雪龙，西北工业大学硕士生，主要从事与LLM结合的语音识别和语音理解的研究。OSUM语音理解大模型项目研发骨干。以第一和合作作者发表论文4篇。