1.2 语音信号处理的发展

早在一两千年以前,人们便对语言进行了研究。由于没有适当的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常被称为“口耳之学”,所以对语音只是停留在定性的描写上。

语音信号处理真正意义上的研究可以追溯到1876年贝尔电话的发明,该技术首次用声电、电声转换技术实现了远距离的语音传输。1939年HomerDudley提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。这一发明在语音信号处理领域具有划时代的意义。19世纪60年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。20世纪40年代,一种语言声学的专用仪器——语谱图仪问世了。它可以把语音的时变频谱用语图表示出来,从而得出了“可见语言”。1948年美国 Haskins实验室研制成功“语音回放机”,该仪器可以把手工绘制在薄膜片上的语谱图自动转换成语音,并进行语音合成。20世纪50年代对语言产生的声学理论开始有了系统的论述。随着计算机的出现,语音信号处理的研究工作得到了计算机技术的帮助,使得过去受人力、时间限制的大量的语音统计分析工作,得以在电子计算机上进行。在此基础上,语音信号处理不论在基础研究方面,还是在技术应用方面,都取得了突破性的进展。下面分别论述语音信号处理的三个主要分支(语音合成技术、语音编码和语音识别技术)的发展和现状。

1.2.1 语音合成

就语音合成技术而言,最早的合成器是1835年由 W.von Kempelen发明,经 Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程,分别用风箱、特别设计的哨和软管来模拟肺部的空气动力、模拟口腔。而最早的电子式语音合成器是1939年HomerDud-ley发明的声码器,它不是简单地模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。

但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是采用计算机产生高清晰度、高自然度的连续语音。在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是,1973年Holmes发明的并联共振峰合成器和1980年Klatt发明的串/并联共振峰合成器,只要精心调整参数,这两个合成器都能合成出比较自然的语音。最具代表性的文语转换系统是美国DEC公司1987年开发的DECtalk。但是,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换(TTS)系统的实用要求。

自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。20世纪90年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单,易于实时实现,有很大的商用前景。

我国的汉语语音合成研究起步较晚,但从20世纪80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。在国家863计划、国家自然科学基金委员会、国家攻关计划、中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人瞩目的进展,其中不乏成功的例子,如1993年中国科学院声学所研制的KX-PSOLA,1995年研制的联想佳音;清华大学在1993年研制的TH-SPEECH;1995年中国科技大学研制的KDTALK等系统。这些系统基本上都采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其他语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术大规模进入市场。

现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出。文语转换使得数据通信和语音通信在终端一级实现交融,人们将有望在获取Internet信息时,使短消息服务、电子邮件等多数以文本方式提供的信息也能用语音的方式输出。语音合成技术经历了从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。

1.2.2 语音编码

语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。语音编码技术的研究开始于1939年军事保密通信的需要,贝尔电话实验室的 Homer Dudley提出并实现了在低带宽电话电报电缆上传输语音信号的通道声码器,成为语音编码技术的鼻祖。直到20世纪70年代,国际电联(ITU-T,原CCITT)于1972年发布了64kbit/s脉冲编码调制(PCM)语音编码算法的G.711建议,它被广泛应用于数字通信、数字交换机等领域,从而占据统治地位。1980年美国政府公布了一种2.4kbit/s的线性预测编码标准算法LPC-10,这使得在普通电话带宽中传输数字电话成为可能。ITU-T也于20世纪80年代初着手研究低于64kbit/s的非PCM编码算法,并于1984年通过了32kbit/s ADPCM语音编码G.721建议,它不仅可以达到与PCM相同的语音质量,而且具有更优良的抗误码性能。1988年美国又公布了一个4.8kbit/s的码激励线性预测(CELP)编码算法。与此同时,欧洲也推出了一个16kbit/s的规则脉冲激励线性预测(RPE-LPC)编码算法。这些算法的语音质量都能达到较高的水平,大大超过LPC声码器的质量。进入20世纪90年代,随着因特网在全球范围的兴起,人们对能在网络上传输语音的VoIP技术兴趣大增,由此,IP分组语音通信技术获得了突破性进展和实际应用。ITU-T于1992年公布了16kbit/s低延迟码激励线性预测编码(LD-CELP)的G.728建议。它以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用,也成为分组化语音通信的可选算法之一。1996年ITU-T发布了码率为5.3/6.4kbit/s的G.723.1标准。在1995年11月ITU-T SG15全会上通过了共轭代数码激励线性预测(CS-ACELP)的8kbit/s语音编码G.729建议,并于1996年6月ITU-T SG15会议上通过G.729附件A:减少复杂度的8kbit/sCS-ACELP语音编解码器,正式成为国际标准。这几种语音编码算法也成为分组化语音通信的可选算法。

语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能力;另一个是如何进一步降低其编码速率。目前已能在5~6kbit/s的速率上获得高质量的重建语音,下一个目标则是要在4kbit/s的速率上获得短延时、高质量的重建语音。特别是对中长延时编码,人们正在研究其更低速率(如400~1200bit/s)的编码算法。当编码速率降至2.4kbit/s以下时,CELP算法即使应用更高效的量化技术也无法达到预期的指标,需要其他一些更符合低速率编码要求的算法,目前比较好的算法有正弦变换编码(STC)、混合激励线性预测编码(MELPC)、时频域插值(TFI)编码、基音同步激励线性预测(PSELP)编码等,同时还要求引入新的分析技术,如非线性预测、多精度时频分析技术(包括子波变换技术)、高阶统计分析技术等,这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性作为语音的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。

20世纪90年代中期到现在,第三代移动通信技术逐渐成熟并走向商用,变速率语音编码和宽带语音编码得到了迅速的发展,不断有新的国际标准和地区标准公布。应用于第三代移动通信的变速率语音编码主要有可变速率码激励线性预测(QCELP)、增强型变速率编码器(EVRC)、自适应多速率(AMR)编码器、自适应多速率宽带(AMR-WB)编码器、可选模式声码器(SMV)和变速率多模式宽带(VMR-WB)编码器等。宽带语音的发展也经历了一个过程, 1988年国际电联通过了第一个宽带语音编码器标准G.722,基于子带自适应差分脉码调制(SB-ADPCM)编码原理,速率为64kbit/s、56kbit/s和48kbit/s。宽带语音编码器的合成语音更自然,非常适合应用到电视电话会议中。早期的宽带语音编码器的缺点就是编码效率不高, 64kbit/s的速率不利于在系统中实现。1999年ITU-T公布了新的宽带语音编码国际标准G.722.1,降低了编码速率(24kbit/s和32kbit/s)。2002年ITU-T在对以往宽带语音编码算法改进的基础上提出G.722.2标准,由9种速率的语音模式组成,编码速率较低,而且可以根据无线环境和本地容量需求动态选择。变速率语音编码理论上仍属于CELP,但在“变”上有了新的研究,由此引入了相关技术的研究,包括:用来检测语音通信时是否有语音存在的语音激活检测(VAD)技术、为突出“变”字而进行速率判决(RDA)的自适应技术、为避免语音帧丢失后带来负面效应的差错隐藏(ECU)技术、为克服背景噪声不连续的舒适背景噪声生成(CNG)技术等。这些相关技术的应用使变速率语音编码之后的语音合成效果几乎没有降低。随着移动通信的飞速发展,用变速率语音编码来提高频带的有效利用率,将是未来数字蜂窝和微蜂窝网的必然发展趋势。

1.2.3 语音识别

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。由于语音本身所固有的难度,让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难,这些特点包括多变性、动态性、瞬时性和连续性等。根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:①根据对说话人说话方式的要求,可以分为孤立字语音识别系统、连接字语音识别系统及连续语音识别系统;②根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;③根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统。

语音识别的研究工作真正开始于20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别10个英文数字的语音识别系统。1956年RAC实验室的Olson等人也独立地研制出10个单音节词的识别系统,系统采用从带通滤波器组获得的频谱参数作为语音的特征。1959年Fry和Denes等人采用频谱分析和模式匹配来进行识别决策构建音素识别器来辨别4个元音和9个辅音。同年,MIT林肯实验室采用声道的时变估计技术研究10个元音的识别。

但语音识别的研究真正取得实质性进展,并将其作为一个重要的课题开展则是在20世纪60年代末。这一方面是因为计算机的计算能力有了迅速的提高,能够提供实现复杂算法的软件、硬件环境;另一方面,数字信号处理理论和算法在当时有了蓬勃发展,从而自20世纪60年代末开始引起了语音识别的研究热潮。这时期的重要成果是提出了动态规划(DP)和线性预测编码(LPC)分析技术,其中后者较好地解决了语音信号产生模型的问题,对整个语音识别、语音合成、语音分析、语音编码的研究发展产生了深远影响。

20世纪70年代,语音识别领域取得了突破性进展。在理论上,LPC技术得到进一步发展,动态时间弯折(DTW)技术基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,首先在孤立词识别方面,由日本学者Sakoe给出了使用动态规划方法(DP)进行语音识别的途径——DP算法。DP算法是把时间规整和距离测度计算结合起来的一种非线性规整技术,这是语音识别中一种非常成功的匹配算法,并在小词汇量中获得了成功,从而掀起了语音识别的研究热潮。另外,就是学者Itakura基于语音编码中广泛使用的LPC技术,通过定义基于LPC频谱参数的合适的距离测度,成功地将其应用到语音识别中。同时,以IBM为首的一些语音研究单位还着手开展了连续语音识别的研究。

在20世纪70年代末和80年代初,Linda、Buzo、Gray等人解决了矢量量化码本生成的方法,并将矢量量化成功地应用到语音编码中,从此矢量量化技术很快被推广应用到其他领域。

从20世纪80年代开始,语音识别研究进一步走向深入,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。HMM技术就是其中的一个典型技术。最早将 HMM用于语音识别是20世纪70年代中期,但对HMM的全面研究和大规模应用是20世纪80年代以后的事情。它受到广泛重视的原因是:马尔可夫链可以用来描述蕴藏于观察数据中的时变特性,这使得它能处理语音信号中常常出现的非平稳特性(即时变特性)。它不仅能用于描述各种不同层次的语音单元,甚至可以描述VQ中的任一码字或由声学特征定义的任一种声学单元,并且由小单元模型组成大单元模型[音节(或音素)→单词→句子]。由Viterbi解码可得到与语音序列相对应的最佳状态序列,从而得到语音单元的最佳分割,使子词单元的使用非常方便,大大避免了训练和识别时的分割困难,使连续语音识别问题得到解决。随着对 HMM的深入研究和在语音识别中的需要,许多新的算法产生,如估计、平滑、外插、建立时间模型、话者自适应等,使得这一技术在语音识别中有了更深入的应用。到目前为止,HMM方法仍然是语音识别研究中的主流方法,并使得大词汇量连续语音识别系统的开发成为可能。在20世纪80年代末,由美国卡内基梅隆大学用VQ/HMM实现997个词的非特定人连续语音识别系统SPHINX成为世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。这些研究开创了语音识别的新时代。

20世纪80年代中期重新开始的人工神经网络(ANN)研究,也给语音识别带来一片新的生机。由于ANN具有自组织和自动学习各种复杂分类边界的能力,以及很强的区分能力,使它特别适用于语音识别这一特殊的分类问题。人们将ANN和HMM在同一语音识别系统中结合使用,即由ANN完成静态的模式分类问题,而用HMM甚至传统的DP来完成时间对准问题。从实验结果来看,这种思想可行而且有效,并能使ANN比较容易地用于连续语音识别问题。语音识别常用的ANN有:时间延迟神经网络TDNN、递归神经网络RNN、自组织神经网络SONN、学习矢量量化LVQ及混合语音识别系统。

进入20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。在20世纪90年代初期,开始出现孤立语音的英文听写机系统,在1997年开始出现基于说话人自适应的连续语音听写系统,并达到一定的实用化程度。从语音识别的进展来看,国际上孤立词识别系统已经扩大到数万个,特定说话人或非特定说话人的连续语音识别系统已达到了很高的识别率。从研究领域来看,在连续语音中识别关键词的研究以及多种语言之间的自动翻译、语音检索等已成为比较热门的课题。随着网络技术和语音研究工作的迅速发展,出现了语种识别技术、基于语音的情感技术、嵌入式语音识别技术等一些新的研究方向。

在国内,语音识别的研究工作起步于20世纪50年代,但是除中科院声学所外,大多数单位是20世纪70年代末及80年代初才开始的。到20世纪80年代末,以汉语全音节识别为主攻方向的研究已经取得相当大的进展,一些汉语输入系统已向实用化迈进。20世纪90年代初,在国家“863计划”支持下,国家863智能计算机专家组为语音识别技术研究专门立项。清华大学与中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究。北京大学在说话人识别方面也做了很好的研究。近些年,在我国科研人员长期艰苦努力下,我国在语音技术研究水平和原型系统开发方面达到了世界级的水平,做出了当之无愧的成果。在中国科学院自动化研究所模式识别国家重点实验室,汉语非特定人、连续语音听写机系统的普通话系统,其错误率可以控制在10%以内的的水平,并具有非常好的自适应功能。尤其是在国内外首创研究开发了汉语自然口语的人机对话系统和汉语到日语、英语的直接语音翻译系统,为在未来发展民族化的语音产业打下了非常坚实的技术基础。清华大学王作英教授提出的非齐次基于段长分布的隐马尔可夫模型(DDBHMM)可以说是对语音识别模型算法的一次重大革新。以此理论为指导所设计的语音识别听写机系统在1994-1998年的全国语音识别系统评测中取得三连冠,从而显示了这一新模型的生命力和在这一研究领域内的领先水平。目前,我国语音识别技术的研究已取得令人瞩目的成绩,其基础研究涉及汉语语音学、听觉模型、人工神经网络、小波变换、分形维数和支持向量机等理论,其研究成果必将推动我国语音识别技术研究迈上新台阶。