3.3 语音信号的频域分析

语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。所采用的分析方法有很多,下面介绍滤波器组分析方法和傅里叶分析方法。

3.3.1 滤波器组方法

利用一组滤波器来分析语音信号的频谱,是最早采用的频谱分析方法之一。这种方法使用简单、实时性好、受外界环境的影响小,所以至今这一方法仍是频谱分析的常用方法。滤波器组法所用的滤波器可以是模拟滤波器,也可以是数字滤波器。滤波器可以用宽带带通滤波器,也可以用窄带带通滤波器。宽带带通滤波器具有平坦特性,用它可以粗略地求取语音的频谱,其频率分辨率降低,相当于短时处理时窗宽窄的那种情况。使用窄带带通滤波器,其频率分辨率提高,相当于短时处理时窗宽较宽的那种情况。图3-12为带通滤波器组法频谱分析原理图。

图3-12 滤波器组法频谱分析原理图

语音信号xt)输入带通滤波器f1f2,…,fn,滤波器输出为具有一定频带的中心频率为f1f2,…,fn的信号。图3-12中滤波器组的输出为模拟信号,不便于计算机做分析处理。可以将滤波器组的输出经过自适应增量调制器变为二进制脉冲信号,再经过多路开关,变为一串二进制脉冲信号。这种信号可以输入计算机进行各种分析和处理。

3.3.2 傅里叶频谱分析

傅里叶频谱分析是语音信号频域分析中广泛采用的一种方法。它是法国科学家J.Fourier在1807年为了得到热传导方程的简便解法而提出的。傅里叶变换在电气工程等领域得到了广泛的应用,很多理论研究和应用研究,都把傅里叶变换当作最基本的经典工具来使用。傅里叶频谱分析是分析线性系统和平稳信号稳态特性的强有力的工具,这种以复指数函数为基函数的正交变换,理论上很完善,计算上很方便,概念上易于为人们理解,在语音信号处理上也是一个非常重要的工具。

傅里叶频谱分析的基础是傅里叶变换,用傅里叶变换及其反变换可以求得傅里叶谱、自相关函数、功率谱、倒谱。由于语音信号的特性是随着时间缓慢变化的,由此引出的语音信号短时分析。如同在时域特征分析中用到的一样,这里的傅里叶频谱分析也采用相同的短时分析技术。

信号xn)的短时傅里叶变换定义为

式中,wn)为窗口函数。

可以从两个角度理解函数Xnω)的物理意义:一是当n固定时,例如nn0是将窗函数的起点移至n0处截取信号xn),再做傅里叶变换而得到的一个频谱函数。这是直接从频率轴方向来理解的。二是从时间轴方向来理解,当频率固定时,例如ωωkXnωk)可以看作是信号经过一个中心频率为ωk的带通滤波器产生的输出。这是因为窗口函数wn)通常具有低通频率响应,而指数对语音信号xn)有调制的作用,可使频谱产生移位,即将xn)频谱中对应于频率ωk的分量平移到零频。这时的短时傅里叶变换可以理解为如图3-13所示的带通滤波器的作用。

图3-13 从带通滤波器作用理解短时傅里叶变换

在实际计算时,一般用离散傅里叶变换代替连续傅里叶变换,这就需要对信号进行周期性扩展,即把xnwn)看成某个周期信号的一个周期,然后对它做离散傅里叶变换,这时得到的是功率谱。值得注意的是,如果窗长为L,那么xnwn)的长度为L,而Rnk)的长度为2L。如果对xnwn)以L为周期进行扩展,在自相关域就会出现混叠现象,即这个周期函数的循环相关函数在一个周期中的值就与线性相关Rnk)的值不同,这样得到的功率谱只是真正功率谱的一组欠采样,即L个采样值。若想得到功率谱的全部2L个值,可以在xnwn)之后补充L个零,将其扩展成周期为2L的信号,并做离散傅里叶变换。这时的循环相关与线性相关是等价的。

图3-14给出了几种典型情况下男性元音的短时频谱。可以看出,通过傅里叶变换得到的元音短时频谱中,存在一定数量的峰值。为了说明这个情况,假设xnm)在窗之外依然保持一种周期性,其周期为M,对于这样类周期信号的xnm),对应的傅里叶级数的系数为Xnk),则其对应的频谱应该是一系列的冲激函数和,即

假设窗函数wm)对应的傅里叶变换表示为

wnm)对应的频谱为Wω)e-jωn。因此在时间域信号的乘积xmwnm)在频域上变成卷积关系,即

Xnω)可以看作是幅值由Xnk)控制的若干个窗函数的频谱在每个谐波上平移后的叠加。这种谐波特性就体现在图3-14的窄带峰值上(间隔接近2π/M)。

图3-14 男性元音对应的短时频谱

在窗函数分析中,我们知道对于任一个窗函数都存在旁瓣效应。一般可以对窗函数的频谱近似如下:

对于矩形窗函数,窗长为Nλ=2π/N。如果NM,表明一个窗函数至少包含了一个基音周期,则式(3-34)成立。图3-14为基音周期为M=71,采样率为8kHz的男声。这里窗长30ms对应N=240,窗长15ms对应N=120,因此图3-14(b)和图3-14(c)均会表现出这种谐波效应,并且窗长越小,对应频谱的主瓣越宽。但对汉明窗,窗长为Nλ=4π/N,这就要求一个窗至少包含两个基音周期,即N≥2M,图3-14(d)满足这个条件,因此仍然可以看到谐波特性。而对于图3-14(e),这个条件不再满足,因而谐波特性表现得就不明显。

前面讨论了短时傅里叶变换,从分析中得到语音信号的短时谱Xnω)。下面简要讨论如何由Xnω)来恢复信号xn),这就是短时傅里叶反变换。傅里叶变换建立了信号从时域到频域的变换桥梁,而傅里叶反变换则建立了信号从频域到时域的变换桥梁,这两个域之间的变换为一对一映射关系。

我们知道,Xnω)可以看作加窗后函数的傅里叶变换,为了实现反变换,将Xnω)进行频率采样,即令ωk=2πk/L,则有

式中,L为频率采样点数。

Xnωk)在时域n上每隔R个样本采样,则可令

用这些Yrωk)求出其离散傅里叶反变换yrn),即

可以证明,xn)和yn)之间只相差一个比例因子,它们的关系如下:

在短时傅里叶变换的基础上,可以得到短时功率谱。短时功率谱实际上是短时傅里叶变换幅度的平方,不难证明,它是信号xn)的短时自相关函数的傅里叶变换,即

式中,Rnk)是前面讨论的自相关函数。

短时功率谱是二维非负的实值函数。用时间作为横坐标,频率作为纵坐标,将短时功率谱的值表示为灰度级所构成的二维图像就是第2章中提到的语谱图。下面介绍语谱图中的时间分辨率和频率分辨率。这里分辨率是指对信号所能做出辨别的时域或频域的最小间隔。对时域具有瞬变的信号,希望时域的分辨率要高,即时域的观察间隔尽量短,以保证能观察到该瞬变信号发生的时刻及瞬变的形态。对频域具有两个或多个靠得很近的谱峰信号,希望频域的分辨率要高,即频域的观察间隔尽量短,短到小于两个谱峰的距离,以保证能观察这两个或多个谱峰。

语谱图中的时间分辨率和频率分辨率是由所采用的窗函数来决定的,按照式(3-30)的第一种解释,假定时间固定,对信号乘以窗函数相当于在频域用窗函数的频率响应与信号频谱的卷积。如果窗函数的频率响应Wω)的通带宽度为b,那么语谱图中的频率分辨率的宽度即为b。即卷积的作用将使任何两个相隔频率小于b的谱峰合并为一个单峰。因为对于同一种窗函数而言,其通带宽度与窗长成反比。因此,如果希望频率分辨率高,则窗长应该尽量长一些。

对于时间分辨率,按照式(3-30)的第二种解释,假定频率固定,对信号乘以窗函数的作用,相当于对时间序列做低通滤波。其输出信号的带宽就是wn)的带宽b。根据采样定理,这时只需要以2b为采样率就可以充分反映出信号的所有频率成分,可见它所具有的时间分辨率宽度为1/(2b)。因此,如果希望时间分辨率高,则窗长应该尽量取短些。由此可见,时间分辨率和频率分辨率是相互矛盾的,这也是短时傅里叶变换本身固有的缺点。

基于上述分析,在语谱图中分为窄带语谱图和宽带语谱图两种。窄带语谱图用于获得较高的频率分辨率,而宽带语谱图可以获得较高的时间分辨率。

除了前述的短时傅里叶变换频谱和功率谱之外,还有对数功率谱以及倒谱等。其中对数功率谱就是将功率谱取对数,而倒谱是将功率谱取对数后进行傅里叶反变换,关于倒谱的具体内容在3.7节详细介绍。图3-15为几种谱之间的关系。

图3-15 几种基于短时傅里叶变换谱之间的关系