从宝莱坞到巴赫(或两者兼而有之),Musenet在几秒钟内就生成了原创歌曲。-王其杉博客|程序员|科技新闻
你想听听凯蒂·佩里演奏的莫扎特风格的钢琴和竖琴协奏曲吗?嗯,为什么不呢?因为现在你可以,用Openai最新的(幸运的是,不是潜在的灾难性的)创建,musenet。这种机器学习模式基于它对艺术家的了解和一些可以模仿它的酒吧来制作从未听过的音乐。
这远不是史无前例的——计算机生成的音乐已经存在了几十年——但是Openai的方法似乎是灵活和可扩展的,它产生了各种流派和艺术家所知道的音乐,并以听觉风格转换的形式交叉传播它们。它与gpt2共享很多DNA,gpt2语言模式“太危险了,无法释放”,但释放无限音乐对世界的威胁似乎比不可检测的计算机生成的文本小。
Openai构建了一个很好的文本生成器,它被认为太危险了,无法发布
穆塞内曾接受过数十位艺术家的作品培训,从著名的历史人物肖邦和巴赫到(相对而言)现代艺术家阿黛尔和披头士,再加上非洲、阿拉伯和印度音乐的收藏。其复杂的机器学习系统引起了大量的“关注”,这是人工智能工作中的一个技术术语,本质上是模型用于通知其创建下一步的上下文量。
以莫扎特的一首作品为例。如果这个模型一次只关注几秒钟,它将永远无法学习交响乐的更大的音乐结构,因为它在不断增长和后退,调换音调和乐器。但是这个模型被赋予了足够的虚拟大脑空间,可以容纳大约四分钟的声音,足够多的时间来掌握一些东西,比如从一个缓慢的开始到一个大的结束,或者基本的诗歌合唱诗结构。
你是说海顿没有直接影响莎妮娅?变得真实。
理论上就是这样。这个模型并不真正理解音乐理论,只是这个音符跟随这个音符,这个音符跟随这个音符,这个音符倾向于跟随这类和弦,依此类推。它的创作在结构上是基本的,但是很明显,听他们说它确实成功地模仿了它所吸收的歌曲。
让人印象深刻的是,一个单一的模式可以在这么多类型的音乐中可靠地做到这一点。人工智能已经被创造出来了,就像几周前为巴赫生日做的精彩谷歌涂鸦一样,专注于特定的艺术家或流派。作为比较,我一直在听generative.fm,它只创建了我工作时喜欢听的稀疏环境音乐类型(如果你也喜欢,请查看我最喜欢的标签之一,serein)。但这两种模型都有其严格的限制。穆塞内不是这样的。
除了能够将无限的蓝草或巴洛克钢琴作品传送出去外,穆斯内特还可以运用风格转换过程将两者的特点结合起来。作品的不同部分可以有不同的属性——在一幅绘画中,你可以从构图、主题、颜色选择和画笔样式开始。想象一个拉斐尔前时期的主题和作品,但印象派的执行。听起来很有趣,对吧?人工智能模型非常擅长这样做,因为它们将这些不同的方面划分开来。在音乐中,这是同一类型的东西:一首流行歌曲的音符选择、节奏和其他模式可以从它的乐器中分离出来并单独使用——为什么沙滩男孩不在竖琴上和声呢?
然而,要想在没有独特声音的情况下感受到阿黛尔的喜好有点困难,而且团队选择的基本合成物会降低整体效果。在听了“现场演唱会”后,球队稍微抽搐了一下,我不相信穆斯内特是下一个成功的机器。另一方面,它通常会大踏步前进,尤其是在爵士乐和古典即兴演奏中,在即兴演奏中,可以演奏出一点脱调,节奏也不那么做作。
它是干什么用的?你的想法真的和别人一样好。这个领域很新。Musenet的项目负责人Christine Payne对该模型很满意,并已找到使用该模型的人:
作为一个受过古典训练的钢琴家,我特别兴奋地看到穆塞内能够理解贝多芬和肖邦的复杂和声结构。我现在正与一位打算将穆塞特融入自己作品的作曲家合作,我很高兴看到人类/人工智能共同创作的未来将带我们去哪里。
Openai的一位代表还说,该团队已经开始整合当代作曲家的作品,他们希望看到模型如何解释或模仿他们的风格。
Musenet将在5月中旬供您玩,届时它将离线并根据用户的反馈进行调整,很快(想想几周)它将至少部分开放源代码。我想流行的组合和人们一直听到的组合会在调整中得到更多的重量。这里希望他们也能在MIDI的执行中添加更多的表达方式——这确实让人觉得这些片段是由一个机器人来播放的。但这也证明了Openai的工作质量,他们经常听起来非常好。