1第1章绪论1.1问题的提出随着生活水平的不断提高,人们对自身素质也有更高的要求,越来越多的人开始学习乐器来提高自身的音乐素质。在各种培养学生音乐感受节奏的方法中,听、念、动三种需要教师播放CD、磁带上的音乐或用钢琴演奏相关的乐曲。CD和磁带上的音乐内容是固化了的,只能因教学的需要进行选择,而不能因教学的需要进行改变。钢琴在现代的音乐课堂上已成了必不可少的工具,利用钢琴教学,方便、灵活、有情感。但也有缺点,如:课堂上教师必须花一部分精力在弹奏钢琴上,无法全身心地投入到教学活动的组织中去;钢琴的弹奏不但受演奏技术程度的制约,也受人的精神和体力状态的制约,人在情绪欠佳或在长时间弹奏(如连续上多堂课)后略感疲劳,可能会弹错音或弹奏的节奏不准确;钢琴的音色较单一等等。这些缺点可由计算机音乐系统来弥补。在音乐的坐标中,横轴是节奏的交替,竖轴是音的高低。在音乐的流动之中,正确地听辨音的高低是非常重要的。培养学生辨别音的高低的能力,要通过必要的音准训练来进行。计算机音乐系统辅助学生的音准训练,有较大的优势。对学生进行音准训练,先从基本音级开始,然后把变化音级一个个依次加入。训练方法主要有三种:听辨、模唱、听记。音的高低,必须有比较才能感觉,所以辨别音的高低至少要牵涉到两个音。任何两个音的出现体现出的特征为每个音的绝对位置和音与音之间的相对关系,而其中最重要的特征是音与音之间的相对关系。在调性音乐中音与音之间的关系体现于音乐的“调式”[1]。音乐的调式构成了音与音之间的不平等关系:统帅与从属、稳定与不稳定。所以辨别音的高低可以先给标准音,从音的绝对音高出发辨别音的高低;可以给某一作为基本音高的音,从一个调式主音出发辨别音的高低。在小字一组的基本音级里,大调式主音就是C,标准音是A,辨别音的高低可从这两个音开始。也有人主张从G—C开始,因为其体现的是大小调式的主属关系,不稳定到稳定的关系。这些见解都很有道理。在练习方法上,传统的方法总离不开钢琴弹奏,现在用计算机音乐系统辅助,更为简便。11.2选题背景及其意义现代科学的发展历史证明,很多新的学科都是在不同学科的交叉点上生长出来的,70年代出现的“电脑音乐”[2]就是音乐艺术与信息科学的交叉学科。三十年来,电脑音乐已经取得了很多实用性的成果,电子乐器、音乐信号的数字编码、数字压缩、数字存储等技术迅速发展,促进了CD、VCD、数字广播、多媒体等的普及应用,展现了广阔的市场前景。但是,电脑音乐作为一个新学科,其根本目标是要用计算机来模拟人对音乐的认知和创作智能,涉及音乐理论、认知科学、人工智能、信息处理、模式识别、智能控制与自动化等学科,具有很大的难度。应该说,时至今日在此方面的研究还只是刚刚开始。计算机的出现推动了现代电子音乐技术的发展。计算机多媒体技术和信号处理技术的日新月异和其在音乐欣赏与创作领域的渗入,使以电子音乐为代表的现代音乐技术飞速发展,而且技术革新的领域也在逐渐扩大。基于计算机、电子技术的音乐识别、分类、特征提取等一系列问题,被越来越多研究人员关注。如果能将电子学的发展灵活运用到音乐欣赏创作的领域,无疑一方面会减轻音乐工作者的劳动强度,辅助他们工作;另一方面将促进实现音乐处理、识别、创作的智能化。因此,寻找一个合理而又有实践价值的结合点,对推动此交叉学科的发展有深远意义。基于电脑技术被运用到相应的音乐欣赏领域,指导或辅助音乐学习、鉴赏提出了音乐识别、音乐检索、录音分析等课题。其中,音乐识别、旋律提取、节拍分析、风格自动分类等研究已被给予一定关注[3]。这个“电子老师”会像音乐教育工作者或者其他接受过多年音乐训练的专业人员一样,智能地理解分析音乐,还可以指导演奏学习者在钢琴演奏领域的实践。1.3当前研究现状目前,对音乐信息的研究主要分为音乐认知、音乐创作和音乐数据库检索三个方面。在音乐认知方面,既包括对节奏[4]、和声[5]等复杂特征的分析与识别,也包括能像人一样的分析音乐风格、感受音乐[6,7],像演奏家一样演奏音乐的计算机系统。在音乐创作方面,又包括以下两方面的内容:一个是按照某种风格,或将一些音乐片断重新组合作曲[8];另一方面是将音乐与视觉艺术相结合,根据音乐产生出不同的图形和动画。在音乐数据库检索方面,是根据一小段旋律,在音乐数据库中找到相应的曲目[9,10],这对于音乐资料的查找将有重要的意义。由于音乐信息中含有大量的模糊性和不确定性,缺乏严格的数学描述和数学1模型,无法用传统的信息处理方法来解决,因此多数研究采用了模糊系统、神经网络、专家系统、遗传算法等智能信息分析处理方法。1.4本文研究内容本文从研究音乐特征开始入手,在音乐、物理的基础上首先明确了可以用于音乐识别的音乐特征的界定,着眼于对描述音乐的本质特征的探询,目的是探讨何谓可以识别音乐的特征,并力争对这些音乐特征进行合理提取、分析。投入大量时间精力研究不同音乐特征的具体提取方法和分析方法,并且结合实际,分别完成音高、时值、特征提取方法设计及其计算机实现。本人的工作还包含制作大量可以用于测试实验的音频文件(录制.wav格式)和乐谱,以及存储相应信息的数据文件;当然,还对系统性能进行必要测试。论文工作的目标是建立钢琴音乐识别系统合理框架结构,给出可以用于识别的音乐特征,实现钢琴演奏音乐的各个特征提取。另外,基频(基音)的提取方法理论及其实现的研究是工作的重点。总之,研究工作是基于物理、音乐及其电子相关理论展开的,并结合信号处理技术、多媒体技术以及模式识别的方法实现的。1第2章音乐的物理基础音是一种物理现象。物体振动时产生音波,通过空气传到人们的耳膜,经过大脑的反射被感知为声音。人所能听到的声音在每秒振动数为16-2000次左右。在自然界中,我们人的听觉能感受到的音很多,但并不是所有的音都可以作为音乐的材料。使用到音乐中的音(不含泛音),一般只限于每秒振动27-4100次的范围内。也就是说在音乐中所说的音是人们在长期的生活实践中挑选出来,能够表现人们生活或思想感情的,并组成一个固定的体系,用来表达音乐思想和塑造音乐形象。音有音高、音长、强弱和音色四种特征,它们分别与振动的频率、持续时间、振幅和频谱分布等物理量相对应:音高代表了音符的高低,可以用钢琴的键盘来说明。钢琴键盘上的每一个白建和黑键都是一个音,从音的高低关系上来说,不管白键还是黑键。凡是相邻两个键都是半音的距离。如果单看键盘上的白键,可以看成是由每七个键分为一组的若干个组过构成,每个组代表了从某一个音到它的高八度音之间的一段距离。各组之间的关系就是由低到高或由高到低逐渐上升或下降的关系。如果两个白键之间插有一个黑键,则这两个白键包含了两个半音,即一个全音;如果两个白键之间没有插有黑键,则这两个白键包含的就是半音。钢琴键盘上每组的七个白键,在五线谱中用基本的音高符号C、D、E、F、G、A、B七个字母来命名,叫做“音名”。黑键依白键而命名,如C、D之间的黑键,可成为升C(#C)或降D(bD),#、b是升高半音或降低半音符号。在简谱中,对应的音高符号是1、2、3、4、5、6、7。从物理学角度来看,音高和声波的频率有着密切的关系,频率越高,则音高越高。音长说明了音符的长短,这是以全音符为基础划分的,其它各音符按它与全音符的比值命名,如二分音符、四分音符就相当于全音符的二分之一、四分之一。通常音乐都是以四分音符为一拍,八分音符为半拍来演奏音乐的。音强就是在听时人们所感到的响度,也就是人们通常说的强弱或大小,轻重,它代表音符的强弱,比如在弹奏钢琴时音强说明了一个琴键按下的力度。音的以上四种性质,在音乐表现中都是非常重要的,但音的高低和长短则具有更为重大的意义。假使改变音乐的音色和强弱,仍可以依稀辨认出乐曲;但若改变音乐的音高和时值,音乐形象将受到破坏。因此,音乐识别的基础任务就是通过识别获得这四个参数的信息,特别是严格地获得音高与时值信息。在音乐中使用的、有固定音高的音的组合,叫做乐音体系[28]。在乐音体系中的音,按照上行或下行次序排列起来,叫做音列。乐音体系中的各音叫做音级(Step)。音级有基本音级和变化音级两种。乐音体系中,七个具有独立名称的音1级叫做基本音级。在钢琴上五十二个白键循环重复地使用七个基本音级名称。两个相邻的具有同样名称的音之间的跨度叫做八度(Octave)。升高或降低基本音级而得来的音,叫做变化音级。这样一个八度内所包含的12个音符为:C、#C、D、#D、E、F、#F、G、#G、A、#A、B。一个个孤立的音,是无法塑造音乐形象的;在音乐中使用的音总是按照一定的关系连结在一起,表达一定的音乐思想。组成一首乐曲的三个基本要素为旋律、节奏和和声。而在这三种要素中,旋律和节奏是不可缺少的,因此对一首乐曲的旋律和节奏的认知是必要且必须准确的。同时乐曲的调式调性也很好的表征了乐曲的特点,如果能很好的提取出音乐的调式特性,在一定程度上可以辅助演奏者对乐曲特征的感知与表现。第3章钢琴音乐的音高、时值特征提取音乐特征的分析与提取对实现音乐的自动识别起着至关重要的作用,其提取对象的科学性、提取方法的可行性及其提取结果的准确性直接影响自动识别的效果,对于本文来说,提取结果将进一步影响对.wav格式的音频信号的分析,及其后续判别、比较、评定工作。因此,特征提取环节是钢琴演奏音乐的计算机识别系统的重要研究讨论的内容,也是实现系统功能必不可少的组成部分。本章讨论了可以用于识别的七种钢琴音乐特征―音高、时值的提取方法理论及其计算机实现。3.1短时傅里叶分析下的音乐特征识别3.1.1短时傅里叶变换的定义和物理意义傅里叶分析是分析线性系统和平稳信号稳态特性的强有力手段,它在许多工程和科学领域中得到广泛的应用。短时傅里叶分析,是基于短时平稳的假定下,用稳态分析方法处理非平稳信号的一种方法,也可称为时间依赖傅里叶变换[43]。对于钢琴演奏的音乐来说,速度较快的急板乐曲一般每分钟240拍左右,即便按照钢琴演奏家的极限能力―在如此速度下,每拍都演奏三十二分音符(也就是每拍八个音符),那么按照相邻两个音符皆不同计算,每分钟可演奏960个音符,则演奏单个音符所占据的时间是0.0625s。由此可以看出,对钢琴音乐进行短时傅里叶分析的短时平稳假设成立(可以假设音乐信号在10ms这样短的时间段中1是平稳的)。在这种情形下,可以分辨的最低频率为16Hz,而键盘上的最低音的音高约为27.5Hz。声音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对音乐信号进行频谱分析,是认识音乐信号和处理音频信号的有效手段之一。信号nx的短时傅里叶变换定义为:mjjnemnmxeX(3-1)式中,n为一窗序列,显然jneX是个二维函数,也称时频函数。可以从两个角度理解时频函数jneX的物理意义:一种解释是:当n固定时,例如0nn,则jneX是将窗函数的中心移至0n处截取信号,再做傅里叶变换而得到的一个频谱函数。这是直接由式(3-7)从频率轴方向来理解的。第二种解释是从时间轴方向来理解:当频率固定时,例如k,则kjeX可看作时信号经过一个中心频率为k的带通滤波器后产生的输出。这是因为式(3-7)中窗序列n通常具有低通频率响应,而kjnenx的傅里叶变换为jneX,这里的指数kjnwe对nx的调制作用,是使其频谱产生位移,即将nx频谱中对应于频率k的分量平移到零频。因此,式(3-7)可以理解为如图3-1所示的带通滤波作用。Xkjnωexnnkjωxe图3-1短时傅里叶等效的带通滤波Fig.3-1Theband-passfilterofSTFT3.1.2基于短时傅里叶变换的频谱图及其时频分辨率短时傅里叶变换幅度的平方2jneX是信号nx在时间n处的频谱能量密度函数。当把nx看成是能量有限信号时,其频谱能量在频域是连续分布的,只能以密度函数的形式给出。它是信号nx的短时自相关函数的傅里叶变换,即:1kkjnjnnekReXP