2.1 语音信号的产生

语音信号产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言表达的信息,然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度、基音周期的升降等表示出来。一旦这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带振动,并塑造声道的形状以便可以发出编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位,包括唇、颚、舌头,以及控制气流是否进入鼻腔的软腭。一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。听者内耳的基底膜,首先对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取的过程有些类似。作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。

2.1.1 语音的发音器官

人类用来产生语音的发音器官自下而上包括肺部(lung)、气管(trachea)、喉(larynx)、咽(pharynx)、鼻腔(nasal cavity)、口腔(oral cavity)和唇(lip)。它们作为整体形成了一个连续的管道,如图2-1所示。其中喉部以上的部分称为声道,随着发出语音的不同其形状是变化的,喉的部分称为声门。

图2-1 发音器官示意图

肺是胸腔内的一团有弹性的海绵状物质,它可以储存空气。通过正常的呼吸系统空气可以进入肺部,在说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形成气流。由肺部呼出的气流是语音产生的原动力。气管将肺部排出的气流送到咽喉。喉部位于气管的上端,由四块软骨组成,包括甲状软骨、杓状软骨、环状软骨和会厌软骨。其中甲状软骨突出在颈部,称为喉结。在喉部从喉结到杓状软骨之间的韧带褶,称为声带(vocal cords)。喉部的声带既是一个阀门,又是一个振动部件。一般声带的长度为10~14mm。呼吸时,左右声带打开,说话时声带合拢。两个声带之间形成一个开闭自如的声门(glottis),声门的开启和关闭是由两个杓状软骨控制,说话时合拢的声带受声门下气流冲击而张开;由于声带具有一定的韧性,可以迅速闭合。当气流通过气管和支气管经过咽喉时,收紧的声带由于气流的冲击产生振动,不断地张开和闭合,使声门向上送出一连串喷流。这时的气流被截断成准周期的脉冲,一般用非对称的三角波表示。声带的振动取决于其质量。质量越大,每秒振动次数越小;反之,质量越小,声带振动越快。声带振动频率决定了声音的音高。声带振动产生声音,这是产生声音的基本声源,称为声带音源(glottal source)。它被进一步调制后经过咽喉、口腔或者鼻腔。口腔的开合、舌头的活动和软腭的升降等发音动作,形成了不同的声道构形,从而发出不同的语音。最后,由嘴唇开口处将语音辐射出去。

声带每开启和闭合一次的时间就是基音周期(pitch period),它的倒数称为基音频率(pitch frequency)。基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。一般基音频率越高,声带被拉得越长、越紧、越薄,声门的形状也变得越细长,而且这时声带在闭合时也未必是完全闭合的。基音频率最低可达到80Hz,最高可达到500Hz。它的范围随发音人的性别、年龄及具体情况而定。老年男性偏低,小孩和青年女性偏高。基音频率不仅是反映说话人特点的一个重要参数,而且基音频率随时间的变化模式,也反映了汉语语音中的声调变化。

声道由咽腔、口腔和鼻腔三个空气腔体组成,它是一根从声门延伸至口唇的非均匀截面的声管,其外形变化是时间的函数。声道是气流自声门声带之后最重要的、对发音起决定性作用的器官,发出不同音时其形状变化是非常复杂的。成年男子声道的平均长度约17cm,而声道的截面积取决于其发音器官的位置。发音过程中声道的截面积由舌头、唇、上颚、小舌的位置决定,具体为0~20cm2。其中咽腔是连接喉和食道与鼻腔和口腔的一段管子。在说话时咽腔的形状会发生变化,它和口腔一起使得声道的形状变化多端,因而能发出较多不同的声音。鼻腔从咽腔开始到鼻孔为止,长度约为101mm,鼻中隔贯穿全长并将鼻腔分为两个部分。当发鼻化音时,软腭下垂,鼻腔与口腔发生耦合产生语音中的鼻音;如果它上抬,则完全由口腔发音。口腔是声道中最重要的部分,它的大小和形状可以由舌、唇、牙齿和腭的变化而调整。舌头是最活跃的,它的尖部、边缘和中间都能自由的活动,并且整个舌体也可以上下前后活动。由于它的重要性,语音中元音的发音就是以舌的位置来分类的。双唇位于口腔的末端,它也可以活动成展开的或是圆形的形状,在发音过程中起着很重要的作用,所以发音方法中也标明了是否圆唇的发音。齿的作用是发齿化音的关键,而腭中的软腭如前所述,是发鼻音与否的阀门。此外,硬腭以及齿龈也参与了发音的过程。

可以将上述声音产生机制的原理用图2-2表示。

图2-2 语音产生的机理图

在发音过程中,肺部与相连的肌肉相当于声道系统的激励源。当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音称为浊音(voiced sound),不伴有声带振动的音称为清音(unvoiced sound)。当声带处于放松状态时,有两种方式能发出声音。其中一种方法是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型的声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。另一种方法是声带处于松懈状态,利用舌头和嘴唇关闭声道,暂时阻止气流,当压力非常高时,突然放开舌与唇,气流被突然释放产生的短暂脉冲音。对应于声道闭紧点的不同位置和声道的形状,形成不同的爆破音。

为了发出各种各样的声音,需要调整声道的形状,称为调音(articulation)。声道各部位的动作称为调音运动(articulation movement)。调音用的声道的各部分器官称为调音器官(articulation organ),包括舌、颚、唇和嘴等声道中可以自由活动的部分。在调音器官中,因调音而产生的声道固定部位的狭窄位置称为调音点(place of articulation)。声带的状态,包括它的位置、形状、各个不同的调音器官的大小随时间变化的情况决定产生不同音色的语音。这是因为不同的声道形状具有不同的传递特性,由于共鸣的作用,能量按着频率发生强弱的变化,导致产生的语音之间存在各种差异。

由上面所述可以看出,声道是气流自声门声带之后的最重要,也是对发音起着决定性作用的器官。用X光照相技术,可以清楚地显示出发各种语音时声道的形状。虽然声道的变化是非常复杂的,但是,如果从声学观点来看,可以把它拉直而完全不影响其声学特性。这样,人们可以从物理学的观点来分析声道的贡献,并可以方便地用模型来描述它。

2.1.2 语音的声学特征

语音是以声波的方式在空气中传播。声波是一种纵波,它的振动方向和传播方向是一致的。声波有一些物理意义上的描述,而从语音学角度,它具有一些其他的特征。

1.声波的物理描述

声波从声源向四面八方传播,它的频率(frequency)指在单位时间内声波的周期数。而波长(wave length)指声波中两个波峰之间相隔的时间距离。波长的计算是用声波的传播速度/声波的频率。频率越高,波长越短;频率越低,波长越长。

从物理描述上看,声波具有两个参数:一个是频率;另一个是振幅(amplitude)。声音的频率与声音的音高有关。振幅则与声音的响度(loudness)有关。声音的频率高,声音就高;声音的频率低,声音就低。在荒郊野外大声呼喊,必然振幅大,响度大;在近处低声交头接耳,必然振幅小,响度小。而频率和振幅之间没有必然的关系。

除了用频率和波长这些物理概念来描述声音外,通常的声音还有复合音(complex tone)和纯音(pure tone)之分。音叉发出的音是单纯声波,哨子发出的音也是纯音。笛子低音区发出的声音,其中一部分也是纯音。在纯音中仅仅有基音而没有倍音,而所谓倍音指该语音频率是基频的整数倍。一般的声音是包含了复合声波的声音。例如吉他的任何一根弦,它的声波中除了基频外,还有许多倍音。一个元音也是复合音。总的来说,对于大部分声音,并非只有一个基频,而是有若干个倍音。在一串声波中,基频的能量最高,力度最强,其他倍音的能量逐渐减低,力量逐渐减弱,以致最后消失。

在相当长的一段时期内,人们只知道声音与声音之间有区别,却不知道其中的原因。法国物理学家傅里叶发现了各个声音之间的区别在于和弦(chord)的不同。之所以能够听出每种乐器都有自己特殊的音色,就是因为它们之间的和弦不同。一个声音的基音与倍音共同组成这个声音的和弦。其中频率最低的和弦是第一和弦,其他的依次是第二和弦、第三和弦、第四和弦,乃至更多的和弦。

每个复合音都有一连串的倍音,但是并非每个倍音都同样那么明显。事实上,只有一部分倍音比较明显,而其余的倍音会被抑制。

总之,一个复合音除了基频外,同时还有若干个倍音。每个复合音突出的倍音会有所不同。在复合音中,基频的频率最低,但振幅最大。其余各个倍音的能量逐渐地减少,振幅也就逐渐减小。

2.共振峰及其与元音舌位的关系

声带产生的声音周期较短、阻尼高,其中包含的频率很多,即声带振动除产生基频外,还会有倍音产生。基频与倍音的频率,取决于肺部用力多少以及声带紧张度如何。这些复合音通过口腔共鸣,有的频率得到加强,有的频率消失。口腔中可以调节的器官较多,包括舌、上腭以及唇的变化都可能影响口腔的形状和阻尼大小,使不同的频率共鸣出来。当把声道看作一个发音的腔体时,激励的频率达到它的固有频率,则声道会以最大的振幅来振荡,即产生共鸣。一般把这个频率称为共振频率(formant frequency),简称共振峰(formant)。

共鸣反应与共鸣器的质量有关,声波碰到硬的东西会反弹回来。如果把球扔到木板上,由于木板比较硬,球会反弹回来。如果把球扔到软椅靠背上,由于椅背较软,反弹力小,就会抵消一部分冲击力。口腔里面的肌肉是很软的物质,声波在口腔肌肉上的反弹力没有那么强,口腔肌肉将吸收去一部分声波能量。因此,口腔作为一个共鸣器,它有较大的阻尼。无阻尼的共鸣器,只对一个频率产生共鸣反应,共鸣器阻尼大,则会对比较多的频率产生共鸣反应。通常,不同的元音是由于口腔共鸣的不同形状造成的。

包含口腔在内的声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某些频率成分而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,随即改变谐振频率。如果声道的截面是均匀的,谐振频率将发生在

其中,c为声速,在空气中c=340m/s;L为声道的长度;n为谐振频率的序号。

如果L=17cm,则谐振频率发生在500Hz的奇数倍上,即F1=500Hz,F2=1500Hz,F3=2500Hz等。元音e/ə/发音时声道的截面最接近于均匀断面,所以谐振频率也最接近上述值。而发其他音时,声道的形状很少是均匀断面的,这些谐振点之间的间隔不同。但声道的谐振点的平均密度仍然大约每1kHz有一个谐振点。上述谐振频率就是通常所说的共振峰。其中共振峰特性和元音的音色紧密相关。一般将舌位高度分为高、中、低,舌位的前后分为前、中、后,则元音的音色和舌位的关系如图2-3所示。

图2-3 单元音发音舌位示意图

对于元音舌位与共振峰的关系,简单地说,元音舌位的“高、低”与第一个共振峰有关,舌位的“前、后”与第二个共振峰有关。用元音的前两个共振峰频率为坐标轴来表示各个元音所在位置的二维图称为声学元音图,如图2-4所示。其中坐标轴是非线性的,以使各元音区域尽可能分离。

图2-4 声学元音图

从声学的角度看元音,每个元音在口腔中所占有的位置是与元音的共振峰频率有对应关系的。一个元音的第一共振蜂频率越低,这个元音的舌位就越高。一个元音的第一共振峰的频率越高,这个元音的舌位就越低。一个元音的第二共振峰频率越低,这个元音的舌位就越后。一个元音的第二共振峰的频率越高,这个元音的舌位就越前。不同人发同一个元音时,各人发音的共振峰的频率不会绝对相同。因此,它们的共振峰频率位置不会完全重叠,而会有差异。但这些差异是同一个元音的共振峰频率位置范围内的差异,人耳和大脑不计较这些差异。

2.1.3 语音信号在时域和频域的表示

1.语音信号的时域波形

在进行语音信号数字处理时,最先接触、最直观的是它的时域波形。通常是将语音用话筒转换成电信号,再用A/D转换器将其转换成离散的数字采样信号后存入计算机内存中。

图2-5(a)是一个女声说的“开始”的时域波形,语音数据是在实验室环境下用普通麦克风录制的。采样频率为16kHz,每个采样点用16位进行量化。图中横轴为时间,纵轴表示信号的幅度。从图中虽然无法辨别语音波形的细节,但可以看出语音能量的起伏,以及语音信号随时间变化的过程。图2-5(b)是将“开”的元音部分/ai/拉长后的形状。可以看出,这段语音信号具有很强的准周期性,并具有较强的振幅。它的周期对应的频率就是基音频率。图2-5(c)是/k/辅音的展开图。可以看出,辅音波形类似于白噪声,并且具有很弱的振幅。

图2-5 语音信号“开始”的时域波形及其展开图

2.语音信号的频域波形

时域波形虽然简单直观,但对于语音这样复杂的信号而言,一些特性要在频域中才能体现出来;并且无论是从发音器官的共振角度,还是从听觉器官的频率响应角度来看,频谱都是表征语音特性的基本参数。其中共振峰就是一个典型的频域参数,它可以决定信号频谱的总体轮廓或谱包络(spectrum envelope)。对于声道而言,它的共振频率不止一个,一般元音可以有3~5个共振峰。

语音的发音过程中,声道通常都是处于运动状态,这个运动状态的时变过程比振动过程要缓慢得多,因此一般假设语音信号是一种短时平稳信号,在一个很短的时间内(10~30ms)是相对平稳的,但在长时的周期中语音信号的特性会发生变化,这种变化的不同决定了产生语音的不同。根据语音信号的这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。图2-6给出了“开始”中/ai/的频谱特性。其中横轴表示频率,变化范围是采样频率的一半。纵轴表示该频率的强弱,以分贝(dB)为单位。这里的短时分析采用汉明窗,进行频谱分析的窗长为512个采样点。

图2-6 “开始”中/ai/的频谱特性

从图中可以看出,第一个频谱的峰值点在250Hz左右,它反映的是基频。第一共振峰在500Hz左右,第二共振峰在1000Hz左右,第三共振峰在1500Hz左右。

3.语谱图

前面的频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,它的横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量。这种时频图称为语谱图(spectrogram)。其中能量功率谱具体可以表示如下:

其中,w[n]是一个长度为2N+1的窗函数。Xnω)表示在时域以n点为中心的一帧信号的傅里叶变换在ω处的大小。在实际情况下,一般不用对每个可能的频率和时间计算相应的能量。对于频率轴,一般计算2N+1点就足够;对于时间轴,取N个点也足够。

图2-7给出了语音“开始”的语谱图。其中横轴表示时间(n),纵轴表示频率(ω),颜色的深浅表示在(nω)处的能量大小,一般用能量的对数表示,即log(1)Pxnω))。语谱图可以根据带通滤波器的宽窄分为宽带语谱图和窄带语谱图。宽带语谱图的频率分辨率通常取为300~400Hz;时间分辨率为2~5ms。窄带语谱图的频率分辨率为50~100Hz,时间分辨率的长度为5~10ms。图2-7(a)和图2-7(b)分别是“开始”的宽带语谱图和窄带语谱图。

图2-7 语音“开始”的宽带语谱图和窄带语谱图

下面分别从元音和辅音的角度,说明它们在语谱图中的具体表现出的特性。汉语元音一类的浊音是由声带的准周期振动,经声道共鸣调制,由口鼻辐射出来。不同元音的音色反映在不同的频谱结构中。各元音音色上的差异,可以用前三个共振峰频率来表示。对元音,从其宽带语谱图上可以看出,语谱图呈现出垂直的条纹,由于宽带语谱图滤波器冲激响应的宽度大约与基音周期相同,因此这些垂直条纹的间隔时间即为基音周期。在窄带语谱图中,可以看到元音的共振峰频率及其随时间的变化,并可以看到浊音区的各个谐波。其中共振峰表现为较粗的黑色带,称为“横杠”(bar),该横杠随时间起伏变化。而各个谐波表现为横向的波纹。

辅音一般都比元音短促,而且能量小,发音时声道变化剧烈,其特性往往受后续元音的影响,因此分析起来要比元音复杂一些。在清音期间,看不到浊音周期呈现的垂直条纹,而表现的是细而密的杂乱的纹理,这可以说明清音的类白噪声激励的性质。一般可以用这样几种样式来表示辅音:直切线样式、间断区样式、噪声样式。在发清塞音时,声带是不振动的。在塞音开始的时候必然有一个宁静点。这时在语谱图上会有一条笔直的切线。看到这条切线就可以断定此处是塞音的开头。图2-7中,100~200ms之间有一条类似的切线,就是因为“开始”中的起始音/k/是一个清塞音。擦音和送气音是一片乱纹。这些乱纹在某些频率区域会比较集中,对应的区域称为强谱区,这是声道对噪声源共鸣作用的结果。不同的辅音,强谱区的分布是不同的。另外,在连续发音时,词与词之间或音节与音节之间,声带往往有简短的宁静。特别是一个音节之后,如果是一个清塞音开头,则两个音节之间会出现一个“间隙”,形成一个间断区。在发清音时,一般声带是不振动的,因此清音的语谱和元音的语谱当然不同。在语谱图上,清音的图谱比较含混,看起来有点杂乱。

另外,当一个辅音与一个元音拼接,例如/d/和/a/拼成/da/的时候,/d/的发音部位是舌头顶齿龈,气流突破此障碍后发音器官迅速向发/a/的部位移动;与此同时,声带开始振动,这样就出现了声带波的形状迅速变化的声带的激励,反映在语谱图上就是弯向元音段的共振峰弯横杠,即所谓的过渡音特性。同一辅音与不同元音拼接时,过渡音特性的上升和下降各有不同,但其延长线会合于一点,这就是该辅音的音轨。不同的辅音,其过渡特性和音轨频率也不尽相同。在辅音的听辨上,过渡音段的信息是很重要的。

图2-7分析的是一种基本的语谱图。类似地,还有一种Mel语谱图,它可以表示出Mel滤波器的能量随着时间的变化。在Mel语谱图中,横轴为帧号,纵轴表示Mel频带滤波器号,每一个像素点的深浅表示该帧信号在该滤波器上输出的能量大小。这时Mel功率谱表示为

其中,Pxnk)表示第n个分析窗的Mel频谱的第k个分量;mkj)表示第k个Mel滤波器冲激响应的DFT变换的第j个系数;Xnj)表示语音信号的第n个分析窗的DFT变换的第j个点。

2.1.4 汉语中语音的分类

音素是指发出各不相同音的最小单位。在汉语中,音素可以构成声母和韵母。有时将含有声调的韵母称为调母。由单个调母或由声母与调母拼成的单位称为音节。音节在汉语中就是一个字的音。音节可以构成词,词可以构成句子。汉语共包括22个声母(包括零声母)和38个韵母。

根据声母和韵母发音动作的不同,可以把音素分为辅音、单元音、复元音和复鼻尾音。

1.辅音

发辅音时声道的某处有一定的阻碍,这种阻碍是声道中活动部分与固定部分接触所形成的,接触点不同发出辅音的音色也就不同。具体接触点的位置可以有11个,可以根据这些接触点位置的不同将辅音分为六类:唇音、舌尖前阻、舌尖阻、舌尖后阻、舌面阻、舌根阻,如表2-1中的横向所示。根据辅音发音过程中的具体阻碍方式,又可分为塞音、擦音、塞擦音、鼻音、边音等。发塞音时,声道中某部位处先呈闭塞状态,使气流无法通过,声音出现短暂的间歇,而后气流突破该障碍而涌出,产生一种很短促的声音,它经过声道共鸣后辐射出去。而擦音在声道中某部位处并不完全闭塞,形成一条很窄的缝隙,让气流挤出去形成湍流,擦音可以任意延长。塞擦音介于擦音和塞音之间,在开始阻碍处完全闭塞,气流无法通过,然后略微放松,让气流挤出去产生摩擦,形成先塞后擦的音。鼻音在口腔里阻碍处完全或几乎完全闭合,但软腭下降,打开通往鼻腔的通路,气流从鼻腔出去形成鼻音,鼻音也可以任意延长。边音的形成是舌尖形成阻碍不让气流通过,但舌头两边留出空隙让气流通过。

辅音共有22个,包括除了零声母以外的全部声母以及韵母中的鼻韵尾音ng/ŋ/。其中大部分辅音都是清辅音,只有m, n, l, r四个辅音在发音时声带产生振动,是浊辅音。辅音根据发音部位和发音方法的不同,可进行相应的分类,具体情况如表2-1所示。

表2-1 汉语辅音音素表

2.单元音

一般单元音有13个,此外还包括7个从国际音标的单元音音素借用的单元音。应该注意,元音并不等于韵母。元音、辅音是按着音素的发音特征来分类的;而声母和韵母则是按着音节的结构来分类的。尽管它们之间有一定的联系,但是两种不同的概念。单元音的音色由声道的形状决定,并且主要由舌头的形状及其在口腔中的位置、嘴唇的形状决定。根据舌头的高、中、低,舌位的前、中、后,以及嘴唇的开放程度,可以发出十多种不同的单元音。根据发音时舌位的高低和前后,以及唇形的圆扁,可将汉语中单元音进行分类,情况如表2-2所示。

表2-2 汉语单元音分类表

全部元音都是浊音,声带都振动,比轻辅音响亮得多。其中舌尖前元音,舌尖后元音,以及卷舌元音是汉语语音所特有的元音音素。

3.复元音

元音中还有13个复合元音,它们都是韵母表中的韵母。所谓复合元音是由两个以上的元音连接而成的。其发音方法是:按复元音中单元音的顺序连续的移动舌位、唇形而发出的声音。需要注意的是,这种连接不是简单拼接,而是一种新的“动态”的声音。因为在连接时,舌位、唇形顺序连续的移动,相互的影响,并且结合得很紧,成为一种固定的音组,在发音的感觉和听音的感觉上等同于单元音,可以视为独立的语音单位。

4.复鼻尾音

复鼻尾音共16个,它们也都是韵母表中的韵母。在汉语中,鼻韵尾只有两个:-n,-ng。它们与元音复合之后也成为不可分割的音组。复鼻尾音音素的情况如表2-3所示。

表2-3 复鼻尾音音素分类表

音节是语流中最小的发音单位,它不仅是听觉上能够自然辨别出来的最小语音单位,也是音义结合的语言单位。从发音机制的角度看,一个音节对应着喉部肌肉的一次紧张,即肌肉紧张一次,就形成一个音节,紧张两次就形成两个音节,如汉语xian包含的一串音素,如果发音时肌肉紧张一次,就形成一个音节“鲜”,如果发音时肌肉紧张两次,就形成两个音节“西安”。每个音节发音时肌肉的紧张可以包含渐强、强峰和渐弱三个阶段,如果把这三个阶段的对应音分别称为起音、领音和收音的话,音节的构成模式有以下四种:①领音;②起音+领音;③领音+收音;④起音+领音+收音。一个音节可以没有起音和收音,但绝对不能没有领音,没有领音就不能构成音节。领音必须有相当的响度才能在听觉上觉察出音节的出现。

汉语语音中,充当领音的经常是元音(V),起音一般由辅音(C)充当,收音可以是元音,也可以是辅音。这样汉语音节结构的基本形式有V、VC、CV、CVC等。音节的这种宏观物理性质,可以作为汉语连续语音识别中音节切分的一种依据。领音处在喉头肌肉紧张度的强峰阶段,将形成音峰,对应于音节的中心。而渐弱阶段的尾端与另一次肌肉紧张渐强阶段的开端之间的地方是喉头肌肉紧张度的最低点,将形成音谷,对应于音节的边界,所以可以在音谷处进行音节切分。

2.1.5 汉语语音的韵律特性

语音是一种特殊的声音,因此它具有声学特征的物理性质。语音的声学特征是指音色、音高、音长和音强,简称语音的四要素。音色也称音质,是一种声音区别于其他声音的基本特征。音色是由混入基音的倍音所决定的。每个人由于性别、年龄、喉部和声道构造的不同,产生倍音的成分也不相同,故具有各不相同的音色。也可以说,语音的音色与声带的振动频率、发音器官的送气方式和声道的形状、尺寸密切相关。音高指声音的高低,即对应前面所讨论的声调,汉语有阴平、阳平、上声和去声四种声调。从物理学角度来分析,音调的变化其实对应频率的变化,即其基频随声调的变化而变化。基频越高,声调越高。而声带的振动频率又决定于声带的长度、张力、厚薄和呼出气流的强弱。一位训练有素的歌唱家,能精确地运用这些变化而发出准确的音调。声音的长短叫作音长,它取决于发音持续时间的长短。音强主要指发音的轻重,一般存在三种重音:正常重音,对比重音和轻声。在词或短语的各音节中,若无轻声和对比重音,则就是正常重音,在没有中间停顿的一连串带正常重音的音节中,不论是一个短语还是复合词,其轻重程度是不完全相同的,其中最末音节最重,其次是第一个音节,中间音节最轻,如“展览馆”“篮球赛”等。正常重音的声学特点是声调的完整性和音长的加长,而不是音强的增加。对轻声,首先它失去了原有的声调,其次是它的音长大大缩短,如指物品的“东西”的“西”。对比重音与正常重音不同的地方在于它的音高范围更大、音长更长、音强也往往增加。

语音在音高、音强和音长方面所显示出来的抑扬顿挫的特性,也称为汉语的韵律特性。汉语中,主要靠音色和音高来区别语义,而音强和音长不能区别语义。关于语音的韵律特性还有待于进一步的研究。