实现效果就如有一个app叫做“听画”,它可以根据用户上传的图片,自动把图片生成一段独一无二的旋律,同时这段旋律又很好听。
实现这种效果,是通过怎样的深度学习实现的呢?
根据他们公司的简介大概可以知道,他们是通过深度学习实现的。
大家有没有什么思路,如何利用深度学习,实现这种生成好听的旋律的系统?
图片的深度学习我能理解,但是音频的深度学习是如何实现的呢?
实现效果就如有一个app叫做“听画”,它可以根据用户上传的图片,自动把图片生成一段独一无二的旋律,同时这段旋律又很好听。
实现这种效果,是通过怎样的深度学习实现的呢?
根据他们公司的简介大概可以知道,他们是通过深度学习实现的。
大家有没有什么思路,如何利用深度学习,实现这种生成好听的旋律的系统?
图片的深度学习我能理解,但是音频的深度学习是如何实现的呢?
1 回答3k 阅读✓ 已解决
1 回答2.7k 阅读
2.5k 阅读
1.7k 阅读
1 回答1.1k 阅读
1 回答673 阅读
1 回答356 阅读✓ 已解决
我不知道它们内部怎么实现的,只能说一下我想到的思路。
图片可以看做一个二维的数字序列,音频也只是一个一维的离散序列,序列中的每个点表示当前时间声音的信息(包括强度、频率分布之类的)。
深度学习算法里面对图片建模常用卷积神经网络(CNN),得到一个向量表示,然后可以把该向量作为输入,连接一个递归神经网络(RNN),通过sequence to sequence learning的序列生成算法就可以自动生成一段音乐。
以上是一个有监督的模型,需要一个标注数据集来做参数训练,目标函数一般取对数似然概率加上正则项。
在deeplearning.net上有一个利用RBM和RNN生成音乐的例子:
http://deeplearning.net/tutorial/rnnrbm.html
思路略有差别,可供参考。