活动介绍

由CCF语音对话与听觉专委会 、西北工业大学音频语音与语言处理研究组、语音之家、希尔贝壳共同主办的【语音之家】AI技术沙龙 — OSUM:学术界有限资源推进开放语音理解大模型,将于2025年2月27日19:00-20:00线上直播,欢迎大家预约观看。

沙龙简介

大型语言模型(LLMs)在各种下游任务中取得了显著进展,启发了业界对语音理解语言模型(speech understanding language models, SULMs)的开发,以期实现基于语音情感、性别等副语言的高表现力交互。然而,大多数先进的SULMs是由行业头部公司开发的,这消耗了大规模的数据和计算资源,而这些在学术界并不容易获得。此外,虽然训练好的模型和推理代码开源,但训练框架和数据处理流程依然缺乏透明度,这也为进一步研究产生了障碍。为此我们提出了OSUM,一个开放的语音理解模型,旨在探索在有限的学术资源下训练SLUMs的潜力。OSUM模型将Whisper编码器与Qwen2 LLM相结合,支持广泛的语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话者性别分类(SGC)、说话者年龄预测(SAP)和语音转文本聊天(STTC)。通过采用ASR+X训练策略,OSUM通过同时优化模态对齐和目标任务,实现了高效稳定的多任务训练。除了提供强大的性能,OSUM还强调透明度,我们提供公开可用的代码,并详细介绍了数据处理流程,以期为学术界提供有价值的参考。通过这样做,我们旨在加速先进SULM技术的研究和创新。  

报告嘉宾

image.png
嘉宾简介:邵琪杰,西北工业大学博士生,主要从事语音识别研究,如多口音、多语种语音识别。研究成果涉及低资源数据表征挖掘、多语种自监督模型、Speech LLM等。OSUM语音理解大模型项目技术负责人。以第一作者身份在IEEE TASLP、Interspeech等期刊和会议发表论文5篇,曾在字节跳动、华为等公司合作研究。
image.png
嘉宾简介:耿雪龙,西北工业大学硕士生,主要从事与LLM结合的语音识别和语音理解的研究。OSUM语音理解大模型项目研发骨干。以第一和合作作者发表论文4篇。
  

沙龙议程

时间:2月27日(周四)19:00 ~ 20:00
形式:线上直播

参加方式

直播将通过语音之家微信视频号进行直播手机端、PC端可同步观看👇👇👇

相关链接

论文:https://arxiv.org/abs/2501.13306
代码:https://github.com/ASLP-lab/OSUM/
Demo:https://aslp-lab.github.io/OSUM.github.io/
在线测试:https://huggingface.co/spaces/ASLP-lab/OSUM

发布于 2025-02-26
0 条评论
组织者
主办方
CCF语音对话与听觉专委会
西北工业大学音频语音与语言处理研究组
语音之家
希尔贝壳