- 语音信号处理(第3版)
- 韩纪庆 张磊 郑铁然
- 6046字
- 2021-03-24 02:22:39
2.2 语音信号的感知
语音信号的感知过程与人耳的听觉系统密不可分。尽管100多年前,物理学家Georg Ohm就提出人耳是一种频谱分析仪的设想,但直到20世纪60年代,人们对外围的听觉系统才有一个较深入的了解,但对于听觉通路等许多方面的研究至今还在探讨阶段。
2.2.1 听觉系统
1.耳的结构
耳是人类的听觉器官,其作用就是接收声音并将声音转换成神经刺激。所谓的语音感知,就是指将听到的声音经过大脑的处理后变成确切的含义。
人耳由外耳(outer ear)、中耳(middle ear)和内耳(inner ear)三部分组成,如图2-8所示。其中外耳、中耳、内耳的耳蜗部分是听觉器官。内耳的前庭窗和半规管部分是判定位置和进行平衡的器官。
图2-8 人耳的构造
外耳由耳翼(pinna)、外耳道(external auditory meatus)和鼓膜(ear drum)构成。耳翼的作用是保护耳孔,其卷曲状具有定向作用。外耳道是一条比较均匀的耳管,声音沿外耳道传送至鼓膜,外耳道同其他管道一样也有许多共振频率。外耳道对声波的共振频率可以计算如下:共振峰频率=声音速度/声音的波长。外耳道的长度大约是25mm,声波波长的长度是它的4倍,声速是340m/s,因此外耳道共振峰频率=(1000×340)/(4×25)=3400Hz,即外耳道的共振峰频率大约是3400Hz。由于外耳道的共振效应,会使声音得到10dB左右的放大。鼓膜是位于外耳道内端的韧性锥形结构,声音的振动通过鼓膜传到内耳。一般认为外耳在声音感知中有两个作用:一是对声源的定位;二是对声音的放大。对声音的放大除了外耳道的共振效应外,头的衍射效应也会增大鼓膜处的声压,总共可以使声音得到20dB左右的放大。外耳是将声音发送给内耳神经转换器的一系列机构中的第一个环节。
中耳为充气腔体,由鼓膜将其与外耳隔离,并通过圆形窗和卵形窗两个小孔与内耳相通,中耳还通过咽鼓管与外界相连,以便使中耳和周围大气之间的气压得到平衡。鼓膜后面的一个小小的骨腔里有锤骨(malleus)、砧骨(anvil)和镫骨(stapes)三块听小骨组成。鼓膜通过听小骨将声音耦合至卵形窗。其中锤骨和鼓膜接触,镫骨和内耳的卵形窗相连,听骨链能把鼓膜受声波而产生的振动传到内耳,听骨链有交角杠杆的作用,在传导声波时能够增加振动的力量。根据力学计算,砧骨脚端的振动力量是锤骨柄部的3/2,又因为鼓膜的面积比卵形窗大20倍左右,所以声波通过听骨链的传导,振动力量可以增加30倍左右。中耳鼓室和咽鼓管相连,咽鼓管能维持鼓膜内外大气压的平衡。在一定的声强范围内,听小骨实现声音的线性传递,而在特强声时,听小骨实现声音的非线性传递,以达到保护内耳的作用。因此,中耳的作用有两个:一个是通过听小骨进行声阻抗的变换,放大声压;另一个是保护内耳。
内耳深埋在头骨中,由半规管(semicircular canal)、前庭窗(oval window)和耳蜗(cochlea)组成。其中前庭窗和半规管属于本体感受器,与机体的平衡机能有关。半规管是三个半环形小管,相互垂直,类似于一个三维坐标系统。它们分别称为上半规管、外半规管和后半规管,半规管内的感受器能感受旋转变速运动的刺激,而前庭窗内的感受器能感受静止的位置和直线的变速运动。内耳的耳蜗是听觉的受纳器,形似蜗牛壳,由蜗螺旋管旋转两圈半构成。耳蜗很小,蜗螺旋管总长只有3cm。内耳的结构复杂,又称为迷路。以上三部分的外表由骨质形成,称为骨迷路;套在骨迷路内的膜性管称为膜迷路。骨迷路和膜迷路形态大致一样,关系就好像自行车车轮的外胎和内胎。膜迷路内有内淋巴液;膜迷路和骨迷路之间有外淋巴液。耳蜗里的膜迷路有感声的毛细胞,它可以把声音刺激变成神经冲动,经听神经传入大脑的听觉中枢完成语音的感知功能。耳蜗中有一个重要部分称为基底膜(basilar membrane),基底膜在靠近前庭窗的部分硬而窄,而在靠近耳蜗孔的部分软而宽。在基底膜之上是柯蒂氏器官(organ of corti),它相当于一种传感装置,耳蜗内的流体速度变化,可以影响柯蒂氏器官上的毛细胞膜两边电位的变化,在一定条件下造成听觉神经的发放和抑制,从而完成机械振动向神经发放信号转换的过程。
2.听觉的形成
声音的感受细胞在内耳的耳蜗部分,因此,外来的声波必须传到内耳才能引起听觉。外界的声波振动鼓膜,经过中耳的听小骨传到卵形窗,进而引起耳蜗的外淋巴和内淋巴的振动,这样的刺激使耳蜗中的听觉感受器的毛细胞兴奋,并将这种声音的刺激转化为神经冲动,由听神经传到大脑皮层的听觉中枢,形成听觉。声波的振动还可以通过颅骨和耳蜗骨壁的振动传到内耳,这个途径叫骨传递。由于听自己说话时包含了骨传递部分,因此与单纯的由鼓膜和听小骨传递的声音感觉会有所不同。
3.耳蜗的作用
声波引起外耳腔空气振动,由鼓膜经过三块听小骨传到内耳的前庭窗,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。频率较低时,基底膜的幅度峰值出现在靠近耳蜗孔处,随着声音频率的增加,该峰值向基底膜根部(靠近前庭窗的部分)移动。在每个声音频率上,随着强度的增加,基底膜运动的幅度加大,并带动更宽的部分振动。不同的声音频率沿着基底膜的分布是对数型的。
基底膜的振动引起了基底膜和耳蜗覆膜之间的剪切运动,使得基底膜和耳蜗覆膜之间的毛细胞上的绒毛发生弯曲。绒毛向一个方向的弯曲会引起毛细胞的去极化(depolarization),即开启离子通道产生向内的离子流,从而增加传入神经(afferent nerve)的发放;当绒毛向另一个方向弯曲时,会引起毛细胞的超极化(hyp erpolarization),增加细胞膜电位,从而导致抑制效应。基底膜上不同部位的毛细胞具有不同的电学和力学特性。在耳蜗的根部,基底膜窄而劲度强,外毛细胞及其绒毛短而有劲度;而靠近蜗孔处,基底膜宽而柔和,毛细胞及其绒毛也较长而柔和。由于这种结构上的差别,使得它们具有不同的机械谐振性和电谐振性。这种差别是基底膜在频率选择方面不同的重要因素,也是声音频率沿基底膜呈对数分布的主要原因。
2.2.2 听觉特性
正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气分子热运动产生的声压。一般来说,声音从右耳传至左大脑的速度比较快,声音从左耳传至右大脑的速度比较慢。即两耳传递速度不同。或者说,左大脑接收右耳传来的声音要快些,右大脑接收左耳传来的声音要慢些。至于接收语音的情况,两耳也有所不同,但它们辨听元音的能力大体一致。对于辅音,右耳比左耳强一些;听音调也是右耳较有优势。正常人可听声音的频率范围为16Hz~16kHz,年轻人可听到20kHz的声音,而老年人可听到的高频声音要减少到10kHz左右。
人类听觉器官对声波的音高、音强、声波的动态频谱具有分析感知能力。人耳对声音的强度和频率的主观感觉,是从响度及音调来体现的。
1.人耳的听阈及响度
语音信号就是一种复合音,它由包含了很多频率成分的谐波组成。对频率不同的纯音,人耳具有不同的听辨灵敏度。响度就是反映一个人主观感觉不同频率成分的声音强弱的物理量,单位为方(phone)。在数值上1方等于1kHz的纯音的声强级,而零方对应人耳的听阈。所谓正常人的听阈是指声音小到人耳刚刚能听见时的大小。听阈值及响度的大小是随着频率的变化而变化的,例如在1kHz的纯音下,响度为10方时相当于10dB的声压级;而对于100Hz的纯音,为了使它听起来与10方的1kHz的纯音同样响,则声压级应该为30dB。这说明人耳对不同频率的声音的响应是不平坦的。这样,人耳感知的声音响度是频率和声压级的函数,通过比较不同频率和幅度的语音可以得到主观等响度曲线,如图2-9所示。在该图中,最上面那根等响度曲线是痛阈,最下面那根等响度曲线是听阈。该曲线组在3~4kHz附近稍有下降,意味着感知灵敏度有提高,这是由于外耳道的共振引起的。
图2-9 等响度曲线
2.音调
音调是听觉分辨声音高低时,用于描述这种感觉的一种特性。客观上用频率来表示音调,主观上感觉音调的单位是采用美(Mel)标度。这是两个概念上不同,却有联系的计量单位。一般对于频率低的声音,听起来觉得它的音调低,而频率高的声音,听起来感觉它的音调高。但是音调和频率并不是成正比的关系,它还与声音的强度及波形有关。一个高于听阈40dB、频率为1kHz的纯音所产生的音调定为1000Mel。如果一个纯音听起来比1000Mel的声音的音调高出一倍,则其音调为2000Mel。如果用公式近似的表示音调和频率的关系,则有
2.2.3 掩蔽效应
迄今为止,人耳听觉特性的研究大多在心理声学和语言声学领域内进行。实践证明,声音虽然客观存在,但是人的主观感觉(听觉)和客观实际(声波)并不完全一致,人耳听觉有其独有的特性。人的听觉系统具有复杂的功能,没有哪一种物理仪器具有人耳那样惊人的特性。听觉机构不但是一个极端灵敏的声音接收器,它还具有选择性,可以起到分析器的作用。此外,它还具有判别响度、音调和音色的本领。当然这些功能在一定程度上是与大脑的结合而产生的,因此听觉特性涉及心理声学和生理声学方面的问题。对于听觉系统的复杂结构与其信息处理过程,虽然现今的科学已经有所揭示,但对真正的实质问题还没完全掌握。
1.同时掩蔽和异时掩蔽
掩蔽现象是一种常见的心理声学现象,是由人耳对声音的频率分辨机制决定的。它指的是在一个较强的声音附近,相对较弱的声音将不被人耳觉察,即被强音所掩蔽。较强的音称为掩蔽者,弱音称为被掩蔽者。掩蔽效应分为同时掩蔽(simultaneous masking)和异时掩蔽(non-simultaneous masking)两类。
同时掩蔽指掩蔽现象发生在掩蔽者和被掩蔽者同时存在时,也称为频域掩蔽。声音能否被听到取决于它的频率和强度。正常人听觉的频率范围为20Hz~20kHz,强度范围为-5~130dB。人耳不能听到听觉区域以外的声音。在听觉区域内,人耳对声音的响应随频率而变化,最敏感的频率段是2~4kHz。在这个频率段以外,人耳的听觉灵敏度逐渐降低。人耳刚好可听到的最低声压级称为听阈,它是声音频率的函数,图2-10中虚线是人耳在安静时的听阈曲线。人耳不能听到声压级低于听阈的声音,例如,把一个纯音信号作为目标,如果它的声压级低于听阈(即安静时阈值),它是听不见的。
图2-10 频率为1kHz声压级为60dB的音调信号的掩蔽阈值曲线
由于一个较强信号(掩蔽者)的存在,听力阈值不等于安静时的阈值。在掩蔽者频率的邻域内,听力阈值被提高。而新阈值,也就是不可闻的被掩蔽者的最大声压级,称为掩蔽阈值。图2-10中实线是频率为1kHz、声压级为60dB的音调信号产生的掩蔽阈值曲线。当目标信号的声压级低于掩蔽者的掩蔽阈值时,目标信号被掩蔽,即不被人耳所察觉。利用人类听觉系统的这一特性,一方面可以把被掩蔽的弱信号看作与人耳无关的信号,不必对其进行编码处理;另一方面,在语音编码中,通过对量化噪声的频谱进行适当整形,使量化噪声低于掩蔽阈值曲线,在主观听觉上能够被音频信号所掩蔽,这样既降低了量化的码率,又提高了音频编码的主观质量。
异时掩蔽的掩蔽效应发生在掩蔽者和被掩蔽者不同时存在时,也称为时域掩蔽。异时掩蔽又分为前掩蔽(pre-masking)和后掩蔽(post-masking)两种。若掩蔽效应发生在掩蔽者开始之前的某段时间,则称为前掩蔽;若掩蔽效应发生在掩蔽者结束之后的某段时间,则称为后掩蔽。图2-11给出了同时掩蔽和异时掩蔽现象。从图中得知,同时掩蔽在掩蔽者持续的时间内一直有效,它是一种较强的掩蔽效应,而异时掩蔽随着时间的推移很快衰减。一般后掩蔽可持续100ms,而前掩蔽仅持续20ms。
图2-11 三种掩蔽现象的强度以及持续时间
利用前掩蔽效应,对抑制因时间分辨率不够而造成的预回声起着重要的作用。语音信号是分帧处理的,帧长的选择受一些因素制约,如过长的帧会使时间分辨率下降,产生严重的预回声。解决预回声的方法是缩短帧长,以提高时间分辨率,这样预回声的影响就被限制在一个较短的时间内。当帧长缩短到2~5ms时,由于前掩蔽效应,预回声会被随之而来的冲激响应所掩蔽。
人类听觉系统的掩蔽效应需要用一个数学-心理声学模型来描述,依据该模型可估算出各掩蔽者的掩蔽阈值。掩蔽阈值取决于掩蔽者的音调性、频率、声压级和持续时间。图2-12描述了一个掩蔽者产生的掩蔽阈值曲线。从图中可以看出,掩蔽阈值是时间、频率和声压级的函数,并且掩蔽阈值随掩蔽音调的变化而有所变化。
图2-12 掩蔽阈值曲线
2.各种不同的掩蔽效果
掩蔽者有三种类型:纯音调、宽带噪声和窄带噪声。不同的掩蔽者和被掩蔽者的组合有着不同的掩蔽结果,它们的掩蔽阈值曲线形状有着相似之处。
1)纯音调信号间的掩蔽
这是指掩蔽者和被掩蔽者都是纯音调信号,这种掩蔽效应比较简单。图2-13是频率为1kHz不同声压级的纯音调对纯音调产生的掩蔽曲线。从图中可以看出,掩蔽阈值曲线的低频段陡峭,高频段比较平坦。
图2-13 频率为1kHz声压级不同的纯音调对纯音调的掩蔽阈值曲线
2)宽带噪声对纯音调的掩蔽
掩蔽者是宽带噪声,被掩蔽者是纯音调信号。虽然白噪声的功率谱是平坦的,但是它产生的掩蔽阈值却只在低频段保持水平。在大约500Hz以上,掩蔽阈值随着频率的增大而提高,每十倍频程大约提高10dB。在低频段,掩蔽阈值一般高于噪声功率谱密度17dB。宽带噪声对纯音调的掩蔽曲线如图2-14所示。
图2-14 宽带噪声对纯音调的掩蔽阈值曲线
3)窄带噪声对纯音调的掩蔽
掩蔽者是窄带噪声,被掩蔽者是纯音调信号。这是一种比较复杂的掩蔽效应,掩蔽阈值随声压级的不同而有所变化,并且随着窄带噪声的中心频率的变化,掩蔽阈值也相应地随之变化。下面分别从这两个方面考虑窄带噪声对纯音调的掩蔽效果。图2-15是中心频率为1kHz、声压级不同的窄带噪声对纯音调的掩蔽阈值曲线。从图中可以看出,曲线的峰值出现在掩蔽者的中心频率处,在声压级大于80dB时,掩蔽阈值曲线在高频段出现严重的非线性特性,有谷点出现。
图2-15 中心频率为1kHz、声压级不同的窄带噪声对纯音调的掩蔽曲线
中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的,图2-16显示了声压级相同,但中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线。从图中可以看出,掩蔽阈值曲线是不等宽的:在低频段,曲线比较窄,随着频率增高,曲线逐渐变宽。
图2-16 声压级相同、中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线
为了描写窄带噪声对纯音调信号的掩蔽效应,引入临界带宽的概念。一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。临界带宽有许多近似表示,一般在低于500Hz的频带内,临界带宽约为100Hz;在高于500Hz时,临界带宽约为中心频率的20%;最高可达到4kHz。临界频带的位置不固定,以任何频率为中心都有一个临界频带。连续的临界频带序号记为临界频带率,或称为Bark域,这是为了纪念Barkhauseu而定名的。通常将20Hz~16kHz之间的频率用24个频率群来划分,或者说共有24Bark,如表2-4所示。
表2-4 临界带宽表
这种掩蔽效应可以从听觉生理上找到依据。人耳的基底膜具有与频谱分析仪相似的作用。频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。划分后的Bark域与耳蜗中基底膜的长度呈线性关系,而与声音频率呈近似对数关系。
除了按照上面的表划分Bark域外,也有一种简单的计算方法:
在Bark域上描述窄带信号对纯音调的掩蔽效应,声压级相同,但临界频带率不同的掩蔽阈值曲线如图2-17所示。从图中可以看出,掩蔽阈值曲线在Bark尺度上是等宽的。
图2-17 声压级相同、临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线