第五节 声纹鉴定
一、声纹、声纹鉴定和声纹学
声纹(voiceprint)的本意是指人的讲话声音通过声谱仪转换成的静态频谱图像;它被称为人的“可见语言”或“第二指纹”。广义的声纹,包括非语声的音响所转化成的频谱图像。
声纹鉴定,是指鉴定人员先将未知人的语声和已知人的语声分别通过声谱仪转换成声纹图谱或数据加以固定,然后针对其各方面特征的异同进行分析、比较、判断,最后做出两者语声是否源自同一人发音器官的检验过程。
专门以声纹分析、描绘、储存、管理、查对及声音再生等内容为研究对象的科学,即声纹学。对声纹的研究始于第二次世界大战。“二战”期间美国人首先提出“声纹”的概念,当时美国研究声纹技术,主要用于分析、了解敌军的军事情报,后来才逐步发展为侦查技术,并广泛地应用于司法领域的人身同一认定。
二、声纹鉴定的原理
在日常生活里,人们可能都曾有过这样的经验,当你拿起电话的话筒,对方一声“喂!”你就能知道他(或她)是谁。通过语声辨听来识别人,是古老而常用的一种方法。听觉辨认,在各国的司法实践中也有悠久的历史,迄今仍不失为行之有效的侦查措施之一。随着科技的进步,人们可以把声音用仪器记录、储存、固定下来,需要时还能将其再现;例如声纹,即图像化或数据化的声音,就是现代司法实践中用于鉴别人身较可靠的侦查新技术。无论证人的主观辨听,抑或仪器的客观识别,其鉴定原理是基本雷同的。
人说话发出的声音是由声带的振动或气流擦过口腔、鼻腔等气道而产生的。声带的往返振动,周而复始,呈周期性运动状。一秒钟振动的周期数称振动频率,以赫兹(Hz)为单位表示。人耳接收的声音是振动源振动了传播介质(如空气等),产生声波再传到人耳内。不是所有的声音都能被人耳所接收,人类听觉系统能听到的声音频率范围(又称听阈)相当宽,一般认为是20~20000Hz;低于此范围的次声和高于此范围的超声,人耳是听不见的。除频率以外,人耳还对声音的强度——音强(用单位分贝(dB)表示)和声音的时间长度——音长(用单位毫秒(ms)表示),均有较宽范围的解析能力。
人对声音的感受不仅表现为对声音上述三个参数的绝对感受性,还表现在对它们差异的分辨能力即差别感受性。若用仪器接收和描记单纯的声音——纯音,可画出一幅正弦波形的振动曲线图,称频谱图。在自然界中,正弦波式的纯音比较罕见,大多数声音(如乐器音、噪音等)都是复合音,即一个声音包含着若干频率成分的分音,也叫基音。其他分音定为第二分音、第三分音,也叫第二谐音、第三谐音⋯ ⋯从声学上分析,复合音的基频等于组成它的所有分音频率的最大公约数。对复合音的音高感觉是以此基频为基础的。
现代语言学认为,言语是语言的行为和结果的具体表现。言语作为语言的行为和结果的具体表现,不但属于人的生理和心理行为,而且是一种社会行为。一个人谈吐言语的方式必然长期伴随着其生活语境而形成,因此难免带有其所处的社会环境及社会各种因素的烙印。无论孩童学话抑或成人学习一种新的语言,都需要反复在听、说、读、写、译等方面练习,力求符合其周围语境和人群的言语规范;基本符合规范了,才可能与其周围的人们通过语言进行思想交流。可见,每一个人学习言语的过程必然会受到其所处社会环境的强烈影响,他学会的这种言语往往既有本地方言的特征,又有其个体特征。
之所以每个人的语声各具特征,主要是因为每个人的发音器官的生理构造(声带的长短厚薄、口腔与鼻腔的大小、舌唇齿腭的相对位置距离等)和发音方法不同。人与人之间的语声特征差异,体现在音频、音高、音长、音响、音色等方面。经专家论证,人的声纹有80多个特征,它可用于识别案件中的录音资料与犯罪嫌疑人的语声是否同一;故刑事技术专家称其为第二指纹。声纹的特征在一定年龄阶段内(通常是在12岁左右的“第一次变声期”至60岁左右的“第二次变声期”之间)基本保持不变,亦具有相对稳定性。因此,声纹的特定性和稳定性,为人身同一认定提供了鉴定理论基础。
三、声纹鉴定技术的司法应用
如前所述,声纹鉴定技术的研究始于第二次世界大战的美国,当时位于新泽西州的贝尔实验室承担了声纹研究任务。经过研究和大量实验,有关声纹鉴定技术的第一本专著《可见语言》于1947年首次出版问世。1962年,贝尔实验室在物理学家劳伦斯· G.克斯特主持下,以123名健康的美国男性为研究对象,在1.6万个实验组不同的声纹中进行了五万余次的鉴定分析,取得了99.5%的识别准确率。1966年密歇根州警察局证实了声纹鉴定技术的实用价值,并于次年派警官到贝尔实验室学习该技术。随后,日本警方也加紧此项技术的研究,创造了日语声纹识别的方法。科学研究结果表明,经过专门训练的鉴定人员对人的语声做出的鉴定误差很小。1981年5月14日,在密歇根州成立了国际声纹鉴定协会(简称IAVI),其宗旨是推广并促进声纹鉴定技术成为人身识别的科学方法之一。
自20世纪60年代起,世界上的许多国家如苏联、日本、德国、英国、意大利、罗马尼亚等也都先后成立了专门实验室,开始研究声纹技术,均取得了成功。不少国家应用声纹技术侦破了一大批疑难犯罪案件。一些国家已将声纹鉴定结论作为法定证据,例如美国的50个州法院都已经确认了声纹鉴定的法律效力。
中国研究声纹鉴定技术,始于20世纪80年代后期。1988年中国刑警学院建立了我国第一家声纹鉴定实验室,于1989年成功办理了中国首例声纹鉴定案件。其后,公安部第二研究所、南京市公安局、上海市公安局等也相继开展了声纹技术的研究。迄今为止,我国已创建了一套汉语语声声纹鉴定的科学方法,并且已经广泛地应用于犯罪侦查和司法鉴定实践之中。1996年3月17日,全国人民代表大会第八届四次会议通过的《关于修改中华人民共和国刑事诉讼法的决定》中,将“视听资料”规定为证据之一,从而使声纹鉴定的法律地位在中国得到了确立。声纹鉴定结论,可以为刑事诉讼、民事诉讼、行政诉讼以及仲裁案件服务。
人的语声是一种复杂的振动波,欲将这种看不见、摸不着的声音固定为可见的图像来分析,通常需要借助声谱仪。声谱仪的工作原理是:首先,由声谱仪分别录下检材语声和样本语声;然后,用声音窄频滤波器或宽频滤波器对输入的声波进行显现、分析、处理;最后,输出比较检验的结果。输入的声波可换算成以频率为Y轴、时间为X轴的直线坐标,再用等高线形分析法对坐标数据进行二次处理,形成附有数量方程的几何图形。复杂的语声就这样被变成具有严格对等关系的数学模型,互相之间可以进行细致、精确的比较。窄频滤波器输出的是条形纹,宽频滤波器输出的是等高形纹。在人工识别声纹工作中,条形纹比较法和等高形纹比较法是两种最常见的比较检验方法。
任何两个人的声纹总会存在着某些差异,一个人与别人的声音绝对不同。世界上尚未发现声纹完全相同的两个人。即使在同样环境中长大的双胞胎,其父母都难以区别他们的声音,但在声谱图上却仍可看出两者的细微差别。随着激光技术的开发利用,鉴定人员又开始采用激光的光学滤波系统来检验人的语声频谱图,从而将声纹鉴定技术向着更客观、真实的方向推进了一步。如今美国、日本、德国、俄罗斯等国的侦查机关已经研制出“计算机自动识别声纹系统”,建立了犯罪分子的声纹档案库。一旦需要鉴定,只要把嫌疑人的语声输入声谱仪进行分析编程,然后电脑即自动与储存的“声纹档案”进行快速比对,最后自动输出鉴定结论。值得强调的是在收集嫌疑人的声音样本时,必须尽可能录制与罪犯作案相似环境下所说的相同或相似语句,以便减少鉴定的误差。