乐器音色特征分析
乐器音色特征分析
音频蕴含着大量的信息。音频信息的处理、分析、检索和识别是当前信号处理领域的重要研究课题,在搜索引擎的音频搜索中,扮演着重要角色。乐器音色的分析提取是其中必不可缺的一部分。音乐是全人类的共同语言,是人类几千年文化发展的成果,所以对音乐的研究具有至关重要的价值。目前,基于多媒体内容的管理和检索(如音乐自动摘要、音乐情感分析和音乐流派分类等)、音乐可视化(如多媒体音乐喷泉)、电子器件模拟传统乐器、计算机辅助音乐教学(音乐标注)、音乐转录、高保真度的音乐压缩编码 、自动件奏系统(包括变音)、辅助音乐创作等应用中,对乐器音色特征的体现尚存在很大的欠缺。这一欠缺直接影响了计算机智能分析音乐的准确度及音乐实现的真实感。因此,寻找一组能够准确反映乐器音色的特征成为乐音信号处理领域迫切需要解决的问题。
1乐器音色的时域特征
时域特征反映了声音的动态变化。因此,声音的时域包络也反映音色。乐器单音的时域包络一般分为四段,包括起奏(Attack)、衰减(Decay)、持续(Sustain)、消逝(Release),每段都对音色有影响。例如,打击乐起奏很短,敲击木鱼只有起奏和持续两段,管风琴没有衰减段,有些合成器只有起奏、衰减段。用于描述音色的时域特征有很多,例如过零率、短时能量、均方根包络、波峰因子、对数上升时间(Log Attacak Time)和时域质心(Temporal Centroid)等。以上参数分别从不同的方面反映了音色的差别。过零率是给定音乐信号时域符号的变化,一定程度上可以反映ว出频率的信息,可根据过零率识别打击乐器。均方根是对信号功率的度量,均方根包络描述了信号幅度随时间的变化。Langmead认为单音起奏包络倾斜度(Spectral Onset A シsynchronous)不同,对乐音音色有较大的影响。
2乐器音色的频域特征
音色主要由频谱特征决定。对音色的描述有谐波谱质心(Harmonic SpectralCentroid)、谐波谱偏差(Harmonic Spectral Deviation)、谐波谱伸展(HarmonicSpectral Spread)、谐波谱波动(Harmonic Spectral Variation)、谱职心(SpectralCentroid)、谱滚降、谐波能量比、谐度、偶次谐波含量、奇次借波含量和谓波的三色激励参数等。
频域分析尺度不同会得到不同的频谱。最常用的STFT滤波器组中心频率成线性上升,每个滤波器的带宽不变,而品质因子是变化的。另外,CQT在乐音信号分析中有着独特的优势,特别是在音准很好的乐器音分析中。CQT通过中心频率成指数分布的滤波器组,将乐音信号表示为确定音乐单音的谱能量,滤波器组的品质因子保持常数,在低频处具有较高的频率分辨率、∞较低的时间分辨率,在高频处具有较高的时间分辨率、较低的频率分辨率。频域的音色特征从유不同的方面反映了声音的物理特性。谱质心是对声音明亮度的衡量。谱滚降✈通常指示一帧中频率的不对称性。谱滚降、谱质心都反映了信号能量在频率上的分布情况。谱通量是对连续乐音顿之间谱能量变化的度量,体现了乐音信号的动态特征。乐音有明显的谐波结构,能量主要集中在低次谐波,不同乐器所含的谐波次数不同。高次谐波丰富、幅度大的乐音,听起来较明亮。声音的谐波次数反映了音色,一般第1~7个谐波最重要,而更高阶次的谐波对音色的贡献并不明显。
3乐器音色的倒频域特征
语音的发声是激励和系统分量卷积的结果,乐器的发声与其类似。一般把激励假设为理想的周期性脉冲,则激励决定音高。系统分量决定音色。所以,很多乐器音色特征的提取是通过倒谱分析来实现的取低的倒频系数(对应于系统分量)作为音色特征。
考虑到人耳的听觉特性,加类似于耳喊(对低频信号比对高频信号更敏感)的滤波器组得到MFCC。通常把MFCC作为静态特征,或进一步做一阶或二阶差分,得到相应的动态特征。结合人耳听觉特性得到的MFCC,能较好地反映音色特征。2008年,关欣提出了全信息的MFCC算法和音乐仿生小波算法,但这种基于听觉感知模型的特征改进较为复杂,不易实现。更进一步的研究,需要把已有的音色特征结合起来,进行音色建模,在新的音色空间中描述信号。例如,构建音色特征的多元正态函数,利用贝叶斯判决函数对单个乐器水平的分类取得较好的结果。对音色动态谱包络的建模在多音高乐器音的分类研究上具有优势,但并没有充分考虑起奏、衰减、持续、消逝四个部分的不同对音色影响。这类方法的研究尚处于初级阶段,没有一个快速有效的方法满足实际应用的需求。