重建一个音乐推荐模型

主要观点:探讨能否从原始音频样本和偏好图中学习音乐推荐模型,通过结合音频处理、对比学习和图数据等内容来研究。
关键信息

  • 介绍了将偏好图作为音频嵌入模型的监督标签,通过嵌入音乐集合、存储索引和查询来实现推荐模型。
  • 数据集方面,固定推荐图,仅考虑具有最大入度中心性的音乐专辑,进行一系列预处理步骤并存储在 SQLite 中。
  • 尝试了两种模型,最初的图卷积网络因内存需求大而放弃,第二种模型类似 2014 年的“Spotify CNN”并有所变化。
  • 训练时模型峰值内存小于 4GB,速度较快,训练收敛平稳,未使用数据增强,验证损失在大量 epoch 后仍缓慢下降。
  • 使用 PyTorch Lightning 自动保存训练中的模型,因模型中的某些部分不支持 ONNX 导出而未用于更快推理。
    重要细节
  • 每个图顶点对应一个包含多个音轨的音乐专辑,通过计算图的入度、下载特定专辑等步骤处理数据集。
  • 音频样本先下采样至 16kHz 并转换为梅尔频谱图,经过 3 个卷积阶段和平均池化等操作,最后通过全连接层和 L2 归一化。
  • 训练时 Adam 优化器,基础学习率为 0.005,批量大小为 16。
阅读 8
0 条评论