博亚体育APP-首页 0682-358021153

音乐人工智能的生长与思考

作者:博亚体育app官网 时间:2021-07-29 08:48
本文摘要:昨天在山西太原中北大学举行的“第八届全国声音与音乐技术集会”上做了一个Keynotes陈诉,也是三天集会keynotes中唯一一个线下陈诉的。这里,我就陈诉中关于音乐人工智能的内容,做下分段式的文字总结,分享给有兴趣相识的同仁们。图1:第八届全国声音与音乐技术集会一、人工智能现状 自2012年以来,人工智能因为深度学习网络预测性能的显著提升获得了迅猛生长,论文揭晓数量在近两年更是出现井喷。 只管数量众多,但事实上离不开程咬金的三板斧,即深层、隐结构和良态化。

博亚体育app

昨天在山西太原中北大学举行的“第八届全国声音与音乐技术集会”上做了一个Keynotes陈诉,也是三天集会keynotes中唯一一个线下陈诉的。这里,我就陈诉中关于音乐人工智能的内容,做下分段式的文字总结,分享给有兴趣相识的同仁们。图1:第八届全国声音与音乐技术集会一、人工智能现状 自2012年以来,人工智能因为深度学习网络预测性能的显著提升获得了迅猛生长,论文揭晓数量在近两年更是出现井喷。

只管数量众多,但事实上离不开程咬金的三板斧,即深层、隐结构和良态化。图2:人工智能三板斧 深层是为了模拟人的大脑结构,如从视网膜到视觉中枢一般认为是五层的通道。

但人脑结构的庞大性和运作机理远没有到相识清楚的田地,简朴的五层并不能到达人脑相应的能力。所以,人工智能想到了,用深层结构来实现预测,实际效果也确实不错。隐结构是因为我们观察到的内容往往是外貌的,需要找到更多的隐特征来发现其内在的控制机理,所以,这个偏向上早期是以图模型的理论和算法框架来展开研究的。良态化,因为我们处置惩罚的多数问题都是病态问题,即一个效果可以由多个原因引起,要找到真正的单个原因是一对多问题,也就是病态问题。

在此前提下,常用的计谋是引入约束条件,将问题限定后寻找最优解,即良态化。现在的人工智能基本上脱离不了这三个大框架的组合。在此前提下,我们能看到有保持信息在经由深层特征提取后不至于衰减的跳毗连计谋,有模拟人类能选择性关注目的的注意力选择模型,有模拟人可以在差别尺度下关注目的的多尺度或金字塔技巧,也有基于信号处置惩罚中残差熵的编码更短的残差深度模型。

还值得注意的是,近两年图神经网络似乎有一统天下的想法,希望把隐结构、深层与良态化联合起来。但因为模型相对庞大,现在只有两层的图神经网络比力利益理。因此,图神经网络的前景另有待张望。

除此以外,在音乐人工智能方面,还值得关注三个新的人工智能偏向。一是元学习。它的生长时间其实也有五六年历史了,但在音乐这块可能还比力新。

与需要大量有标签的监视学习相比,元学习可以用少量的、差别类型的任务集来学习新任务集的预测。以歌曲为例。它可以将每个气势派头下的歌曲和标签的预测看成是一个元训练样本, 差别气势派头的则组成一组元训练样本集。

通过对这组训练样本的学习,可以获得一组参数集。该参数集的用处,是在泛起新的未知气势派头的歌曲和标签集时,可以直接调整参数集的权重来实现元学习。图3:元学习示例 其次,是自监视学习。

这一偏向是近两年泛起的,它主要是希望使用大量未标注样本的结构关系来获得特征表达辅助信息 (Pretext),以资助下游任务获得更好的预测。在图像处置惩罚中,常见的结构关系寻找有在图像差别位置上增加图像块,并标注差别图像块间的位置关系。另外,另有着色、旋转、多尺度排序等。而在声音与音乐方面,最近三年,Zisserman教授组揭晓了三篇相关的事情,旨在发现视频中演奏乐器与音频中的语义一致性和同步性。

他们将乐器演奏的视频帧与相同时刻的音频对应起来,以结构正样本;再将差别时间的音视频,或差别乐器声音的音视频作为负样本。通过结构能令正样本间距离变小、负样本间距离变大的对比损失(contrastive loss),并优化自监视模型,以获得辅助任务的有效特征表达。该模型可用于多个下游任务如音视频的跟踪、检测说话人说话与否,音源分散等。

图4(a): 自监视学习在有声视频上的应用图4(b): 自监视学习在有声视频上的应用图4(c): 自监视学习在有声视频上的应用 第三是蒸馏学习。它的目的在使用教师模型来从大数据中学习一个相对大略的特征表达,并基于这一效果再精致化训练一个小的学生模型。这一技术的利益在于,我们可以淘汰对深度学习最焦点的运算硬件GPU的依赖,甚至可以让这些模型,在模型压缩后能进得手机上去处置惩罚。

这样的话,就有可能更有利于实用化基于音乐人工智能的种种应用了。图5: 知识蒸馏示例二、音乐智能的思考 这里谈几点人工智能在音乐领域的潜在应用和思考。1、模拟与示教 因为深度学习的兴起,近年来通过模拟专家学习计谋的强化学习也从早期比力庞大的理论性研究,转到了相对实用且模型性能优异的深度强化学习模型上。同时,为了能更好地学习专家决议,而不用去明白专家内在的脑电运动,示教、行为克隆等理论和算法也获得了生长。

这对于音乐领域来说,可能比力有用的一块是需要老师教学的部门,如指挥家是如何指挥的、钢琴及其他学习的指法训练等等。如果将这些专家的知识收集,并形成演示数据以及基于演示数据的强化、示教模型,则有可能能资助机械臂某人类的初学者更好地学习相关的技法。图6:艺术的可学习性与模拟示教学习2、幸存者偏差与艺术的留白 艺术有一个差别于人工智能的地方,就是有些作品、气势派头甚至艺术家自己之所以有名,不是因为其学习了大量的知识,反而是因为其没有学习太多共性的知识,而是保留了其独占的个性,俗称“留白”。

与人工智能算法相比,似乎是不能依赖大数据训练,才有可能获得这一品质。但事实上,我们也许可以换个角度来思考。“留白”或许有部门是属于“幸存者偏差”的。

就像二战时期的飞机设计,美国哥伦比亚大学统计学沃德教授 (Abraham Wald)通过视察联军轰炸机遭遇攻击后的数据,发现只管飞机上机翼最容易被击中的位置、而机尾是最少的位置,但这一视察是因为机尾被击中的飞机都没有飞回来导致的,因此,不能依靠幸存的飞机来给出判断,而应该思量所有的可能性。在此前提下,强化机尾的防护才是最合理的。从人工智能角度来看,它属于反事实推理 (Counterfactual Inference),即需要通过引入更多的信息来寻找其真正的谜底,而非仅基于手头的数据。

艺术留白,也许部门原因是因为我们过多依赖共有的数据,却很少对其引入差别的决议评判来分析其奇特性导致的。那么,如果能够多研究人工智能的反事实推理,有可能在未来的音乐人工智能研究中,艺术的留白这一问题也有可能能被智能算法部门解决。

图7:艺术的留白与反事实推理3、核磁共振与歌颂、乐器吹奏研究 人在吹奏乐器、歌颂时,头部里的呼吸通道、口腔里舌头和天花板的位置以及其它部门的变化,都影响着吹奏乐器或歌颂的性能。以歌颂为例,差别气势派头的歌手唱歌时,声音的位置处置惩罚是完全差别的。但因为头部的器官和共识位置相关的空间都隐藏在面部肌肉以下,往往很难直接观察到。

因此,有可能可以通过伤害性较小的核磁或脑磁设备去监测,从而资助更有效的分析和学习专业歌手或吹奏乐器的技术。需要指出的是,近年来不少新型检测设备在时间分辨率和空间分辨率两方面都已经获得了大幅度的性能提升,这为我们更好地分析歌颂和乐器吹奏提供了可能。图8 (a):核磁共振与歌颂、乐器吹奏的研究图8 (b):核磁共振与歌颂、乐器吹奏的研究。

右图视频参见:https://www.ixigua.com/68915597141365424754、短视频里的对口型辨识 近年来,短视频是智能手机中最热门的应用,其催生了大量的网红。为了能快速成为网红,有一些人会抄袭、挪用他人的音乐作品,形成对口型的短视频。

但由于其有可能会在制作短视频前,去对原作品举行变调、加电音、混响等处置惩罚,以至于有的时候一般人不太容易辨识出是否有抄袭或其他不端行为。可是,这种行为并倒霉于短视频的良序生长,因为如果纵容这一行为,也许会让更多的人不愿意花价格做原创。

博亚体育app

思量到短视频的用户群很大,因此,使用人工智能去寻找对口型或相似问题作品中的辨识度特征,并基于此来判断是否有不端行为,就很有实际的应用价值。图9:短视频中对口型辨识的应用5、AI作曲 关于这一问题,音乐界一直有不少争论,更多的是不太认同AI作曲的水准,以及偏离了人类的审美气势派头、缺乏大局观。

我认为这个问题,与我们从何种角度来评价AI作曲的品质有关。这里不妨想想周星驰的《谎话西游》里唐僧对妖怪说的一句话“人是人生的,妖是妖生的,妖如果有了仁慈的心,就不是妖了,是人妖”。

图10:AI作曲的思考 如果我们把AI作曲界说成是为人类服务的,那很有可能就会泛起上述情况。但如果想想,未来的AI自己就是主体呢,也许它的作品纷歧定是需要为人类服务的。据报道,日本曾经让一组机械人相互交流,效果,它们最终似乎发现了人类听不懂的语言,并能用之来交流。也许,AI作曲也有可能会生长出机械能浏览但人类不知道如何浏览的作品。

思量到机械的盘算速度极其地高,有可能它们会作出毫秒级的音乐作品,来供其自我浏览。三、音乐智能的市场 只管音乐和人工智能在许多特质上是有显着差异的,但必须认可地是,音乐市场中智能化的蛋糕还相当地大。究竟人的精神是有限的,一个专业的音乐人不行能同时指导太多学习者,而机械由于有强大的算力支持,它是可以大幅度淘汰指导历程中不须要的专家指导行为和降低学习成本,以及提高学习效率的。好比钢琴训练中,每周老师可能也就指导一至两次,期间的空档需要学生自己去训练。

如果人工智能能在学生训练期间给予适当的指导、纠错,显然可以更好地提高学习效率。我们也不难想象,其中可以指导的人数有多大,市场有多大。

四、问题:大数据对音乐气势派头和学习的影响 音乐气势派头一直有许多新的形式在泛起着,但大数据有可能资助我们发现更多人类未见过的气势派头。这一点类似于AlphaGo下围棋。

它通过短时间3000万局的训练,发现了人类300年棋谱中未见的绝妙棋着,以至于现在许多围棋角逐中国棋选手都开始选择用AlphaGO用过的落子方式下棋。人类在学习音乐时,也存在同样的情况。

因为人不行能做像机械这样的学习,所以一旦模型用对了,机械就有可能通过大数据、海量盘算发现更多新的音乐气势派头或有趣的旋律。固然,它和人类是有着本质区此外,人类可以通过有限量的学习来实现直觉、顿悟和创作,但现在的机械还是通过时间换空间的方式,依靠强大的硬件盘算能力来实现这一功效的。图11:音乐的美与平衡智能五、音乐的美与人工智能的预测 对我们来说,音乐是美的。

这种美往往是来自于一种平衡,它有点像国人常说的阴阳八卦,是一种相互制衡后形成的。它既有节奏、伴奏、人声与乐器声等因素的平衡,也有对种种情绪的平衡,另有个体主观感受和大人感受的平衡,因此我们在研究音乐的时候,可能需要更多的思量其中的平衡,而不能像现在人工智能绝大多数研究那样,只关注预测性能的优越。如果过多的关注后者,很有可能会走入类似量子力学中的不确定性原理的一个极端,即获得了优异的预测性能,却丢失了美或平衡。

这一点,可能需要从事音乐人工智能的研究者多多思考下,如何在音乐的美与人工智能的预测之间找到平衡点。张军平2020年11月9日 注:部门用图来自网络。


本文关键词:博亚体育app,音乐,人工智能,的,生长,与,思考,昨天,在,山西

本文来源:博亚体育app-www.hyxez.com