第二节 语音识别:让机器通过识别,把语音信号变为相应的文本

人工智能技术可以应用于语音识别领域,比如:iPhone的Siri和Windows语音助手Cortana都使用了机器学习的技术。当用户使用语音识别软件时,机器要在已经构建的状态网络中寻找与客户声音最匹配的路径。通过状态网络的构建,机器就能从用户的话语中确定用户提出的具体要求,甚至可以帮助程序自动填充用户需求。机器对客户的声音样本收集得越多,对客户就越人性化。

1.何为语音识别

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,简而言之就是,让机器通过识别和理解过程把语音信号转变为相应的文本或命令。

语音识别是一门涉及面很广的交叉学科,与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有着密切关系,正逐步成为计算机信息处理技术中的关键技术。

从本质上来说,语音识别系统是一种模式识别系统,包括:特征提取、模式匹配、参考模式库等三个基本单元。

具体理解就是:未知语音经过话筒变换成电信号;之后,再在识别系统的输入端,先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。

在识别过程中,计算机要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后,根据此模板的定义,通过查找表,给出计算机的识别结果。

2.语音识别系统

一个连续语音识别系统基本上可以分为四个部分:声学模型训练,语言解码和搜索算法,特征提取,以及预处理模块。

(1)声学模型训练

根据训练语音库的特征参数训练出声学模型参数,识别时,可以将待识别的语音特征参数同声学模型进行匹配,得到识别结果。

目前,主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。声学模型的建模单元,可以是音素、音节、词等各个层次。对于小词汇量的语音识别系统,可以直接采用音节进行建模;对于词汇量偏大的识别系统,一般选取音素,即声母、韵母进行建模。识别规模越大,识别单元选取的越小。

从本质上来说,人的言语过程就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要发出的音素的参数流。HMM合理地模仿了这一过程,是比较理想的一种语音模型。

(2)语音解码和搜索算法

所谓解码器就是,语音技术中的识别过程。针对输入的语音信号,根据已经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径能够以最大概率输出该语音信号的词串确定这个语音样本所包含的文字。

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,得到词解码序列。搜索依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

(3)特征提取

该模块的主要功能是:除去语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是,提取反映语音信号特征的关键特征参数,形成特征矢量序列,便于后续处理。目前,常用的提取特征的方法还比较多。不过,这些提取方法都是由频谱衍生出来的。

(4)预处理模块

该模块的主要功能是:对输入的原始语音信号进行处理,滤掉不重要的信息和背景噪声,并进行语音信号的端点检测、语音分帧和预加重等处理。

3.语音识别的应用

语音识别可以应用的领域大致分为:

(1)电信。相当广泛的一类应用在拨号电话系统上都是可行的,包括:话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

(2)制造业。在质量控制中,语音识别系统可以为制造过程提供一种“不用手”“不用眼”的检控(部件检查)。

(3)办公室或商务系统。典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等。

(4)医疗。这方面的主要应用是借助声音来生成和编辑专业的医疗报告。

(5)其他。主要包括:由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。

随着手持设备的小型化,甚至穿戴化,各种智能眼镜、手表等定然会层出不穷。虽然,找准市场突破口最重要,但也离不开好的解决方案和系统设计参考。