头图
本文作者:成益

《TG-CRITIC: A TIMBRE-GUIDED MODEL FOR REFERENCE-INDEPENDENTSINGING EVALUATION》-以音色作为指导的无参考歌唱评价算法

论文作者:孙校珩、高月洁、林瀚峣(共同一作)、刘华平,均来自云音乐音视频实验室。

论文下载https://arxiv.org/abs/2305.09127

论文简介:本文提出一种歌唱评价算法,可以仅依靠一段演唱音频作为算法输入,判断歌手演唱水平

  • 算法输入:演唱音频(非rap类)
  • 算法输出:好中差三分类/0-1的连续分数
  • 评价尺度:完整音频/一首歌内不同片段的分数变化

对于人类专家来说,即使听到一首完全陌生的歌曲,也可以从中判断出歌手的演唱水平。在歌唱评价算法中,这类不需要已知旋律线或已有演唱音频作为对比模板的评价方法,称为“无参考”歌唱评价。我们可以用更熟悉的一个词“开口跪”来描述这种感受。

人声的音色是影响歌唱感知的重要因素。我们首创的提出了一个音色为指导的歌唱评价模型:TG-Critic。实验结果表明,本模型在大多数情况下都优于现有的最先进模型。

模型的设计过程中引入了三个主要创新点: 1.首次在模型中显式引入音色信息辅助歌声评价 2.迁移高分辨率网络结构处理声谱特征 3.提出循环自动数据标注降低人工成本

作为目前准确率最高的端到端的算法,歌唱评价将不再依赖人力手工准备模板物料,且歌手不再需要模仿模板以获取高分,更鼓励歌手的个性化演绎。相比卡拉ok中的传统歌唱评价,有着更加丰富的使用场景,如歌曲分发、优质歌手挖掘、声音社交等。

《TrOMR:Transformer-Based Polyphonic Optical Music Recognition》-基于Transformer的复调图像乐谱识别算法

论文作者:李宜烜、刘华平、金强、蔡苗苗、李鹏,均来自网易云音乐音视频实验室。

论文下载https://arxiv.org/pdf/2308.09370.pdf

论文简介:OMR(图像乐谱识别)和OCR(图像文字识别 )对应,目的在于识别图像中的乐谱。随着深度学习方法的应用,OCR近年得到了长足的进步,而OMR却始终处于研究应用的初级阶段。针对较复杂的乐谱图像,主流的做法更多采用基于目标检测的方式进行乐谱识别,整体算法流程相对繁琐,数据集制作成本高,泛化性较差,对于复调复杂乐谱(Polyphonic)识别精度差。

为了解决以上问题,本论文提出了端到端图像乐谱识别算法,主要创新如下:

1.首次将Transformer引入到乐谱识别任务中,提出TrOMR网络结构,该结构可以预测更长的音符序列,提升识别准确率。

2.将乐谱的标注维度从原来的音符节奏+音符时值,拆分为:乐谱符号全局表征+乐谱符号局部表征+音符音高。这样的拆分方式更利于机器理解和学习。

3.现有的OMR数据集通常使用图像处理方法来模拟真实环境,与实际应用场景存在差异。本文精心设计了一套乐谱图片拍摄的方案,使用手机作为拍照工具,模仿最真实的拍照场景,对明、暗光场景的纸质乐谱进行拍照,以及对显示在显示屏上的乐谱进行拍照。收集了大量的真实数据,希望可以更好的服务于真实场景。

实验结果证明,当前方案对于音符密集的乐谱有着更高的识别准确率。

本文发布自网易云音乐技术团队,文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位,如果你准备换工作,又恰好喜欢云音乐,那就加入我们 grp.music-fe(at)corp.netease.com!

云音乐技术团队
3.6k 声望3.5k 粉丝

网易云音乐技术团队