有没有什么算法，或者利用深度学习能自动生成好听的旋律呢？

Question

实现效果就如有一个app叫做“听画”，它可以根据用户上传的图片，自动把图片生成一段独一无二的旋律，同时这段旋律又很好听。

实现这种效果，是通过怎样的深度学习实现的呢？

根据他们公司的简介大概可以知道，他们是通过深度学习实现的。

大家有没有什么思路，如何利用深度学习，实现这种生成好听的旋律的系统？

图片的深度学习我能理解，但是音频的深度学习是如何实现的呢？

阅读 7.3k

1 个回答

得票最新

我不知道它们内部怎么实现的，只能说一下我想到的思路。

图片可以看做一个二维的数字序列，音频也只是一个一维的离散序列，序列中的每个点表示当前时间声音的信息（包括强度、频率分布之类的）。

深度学习算法里面对图片建模常用卷积神经网络(CNN)，得到一个向量表示，然后可以把该向量作为输入，连接一个递归神经网络(RNN)，通过sequence to sequence learning的序列生成算法就可以自动生成一段音乐。

以上是一个有监督的模型，需要一个标注数据集来做参数训练，目标函数一般取对数似然概率加上正则项。

在deeplearning.net上有一个利用RBM和RNN生成音乐的例子:

思路略有差别，可供参考。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题