- 人工智能:语音识别理解与实践
- 俞栋等
- 2652字
- 2021-01-05 18:14:47
1.4 全书结构
本书从结构上可分为7个部分。在第I部分中,我们主要介绍传统的GMM-HMM系统和相关的数学模型及其变体。内容主要提取自一些成品书[41-43]和来自文献[44, 45]的教学材料。第II部分介绍经典的全连接前馈型深层神经网络,包括深层神经网络基础理论、DNN与HMM的融合技术、深度特征角度的理论分析及系统融合,以及深度学习在语音端点检测和唤醒任务上的应用。第III部分讨论若干先进的深度学习模型在语音识别中的应用,主要包括基于卷积神经网络和循环神经网络的声学模型,同时介绍深度学习在语言模型中的应用。第IV部分从建模框架角度,介绍一系列不同于前述经典语音识别建模框架的高级语音识别技术,包括自适应、序列级鉴别性训练及端到端模型。第V部分则从应用场景出发,介绍复杂声学场景下的声学建模技术,主要包括单通道语音增强和分离技术、麦克风阵列信号处理及远场语音识别。在详细介绍语音识别的深度学习实践之后,第VI部分对深度学习在口语理解、对话状态跟踪、自然语言生成及数据驱动的对话策略学习中的应用进行综合介绍。作为第VII部分,我们在第23章总结整本书,概述基于深度学习的语音识别和对话系统发展中的一些关键里程碑,并给出我们对未来研究方向的思考。
第I部分:传统声学模型
第2章和第3章介绍传统的混合高斯模型-隐马尔可夫声学模型的基本理论。这两章将有助于读者理解后面介绍的深度学习声学模型。
第2章讨论混合高斯模型、最大似然准则和期望最大化算法[46]。第3章介绍在现代语音识别系统中有最杰出贡献的隐马尔可夫模型(Hidden Markov Model,HMM)。我们将介绍HMM是如何处理可变长度信号序列的,并描述前向后向算法(forward-backward algorithm)和维特比解码(viterbi decoding)算法。在本书着重讲述的上下文相关的深层神经网络-隐马尔可夫模型(CD-DNN-HMM)系统流行起来以前,GMM-HMM构成了现代语音识别系统的基础。
第II部分:深层神经网络在语音识别中的应用及分析
第II部分详细介绍经典的深层神经网络是如何应用于语音识别之中的,对相关深度学习技术的基本概念,在不同语音识别任务中的具体应用方式及与传统声学模型的结合都进行详细介绍,其中还特别从特征表示学习的角度,对深层神经网络在语音识别中的成功原因进行分析。
第4章和第5章详细介绍深层神经网络的基本理论。重点介绍在构建真实系统时被证明有效的技术,并从理论和实践的角度解释这些技术为什么工作和如何工作。第4章介绍深层神经网络、著名的反向传播(Back Propagation)算法[47, 48]和迅速有效训练一个DNN的各种实践技巧。第5章讨论高级的DNN初始化技术,包括生成性预训练和鉴别性预训练[49]。主要讨论受限玻尔兹曼机[50](Restricted Boltzmann Machine,RBM)和带噪自动编码器(Noisy Auto-encoder)[51],以及它们两个之间的关系。
从第6章到第10章讨论在语音识别中如何有效地将DNN和HMM融合起来。第6章描述DNN-HMM混合系统[12],其中,HMM被用来对声音信号的序列属性建模,DNN被用来对HMM中的发射概率(Emission Probability)建模。第7章讨论在实践中提高DNN-HMM系统训练、解码速度的技巧。
第8章从联合特征学习和模型优化的角度讨论DNN。我们认为DNN可以在任意隐层被分开,其下面的所有层都可以被认为是特征变换,其上的所有层都可以被认为是分类模型。本章也是对DNN在语音识别中成功超越传统模型的理论分析。基于深度特征变换的解释,第9章介绍tandem结构和瓶颈特征,DNN在其中充当一个单独的特征提取器,为传统的GMM-HMM提供特征。
继DNN在连续语音识别中获得成功之后,它在与语音识别相关的其他一些声学建模任务上也得到了成功应用。第10章进一步介绍深层神经网络在语音活动端点检测(Voice Activity Detection,VAD)及语音唤醒任务中的应用方法。
第III部分:先进深度学习模型在语音识别中的应用
第II部分介绍的深层神经网络主要指深度全连接前馈型网络,在第III部分中,我们将介绍其他的先进深度学习模型在语音识别中的应用。
第11章介绍深度卷积神经网络及其在语音识别的声学建模中的应用。第12章介绍循环神经网络,尤其是长短时记忆(Long Short Term Memory,LSTM)单元神经网络及其变体,以及它们在声学模型中的应用。以之前章节为基础,第13章综合介绍各类深度学习模型在语音识别的语言模型中的应用,并讨论对建模单元的选择。
第IV部分:高级语音识别方法
第IV部分介绍一系列不同于前述经典语音识别建模框架的高级语音识别方法,以及深度学习在这些高级语音识别方法中的具体实现。
自适应技术是语音识别中的迁移学习技术,是在数据不充分的情况下快速构建语音识别系统的有效方法。第14章介绍针对深度学习声学模型的自适应技术。
前面章节所讨论的深度学习模型的优化都是在帧级别进行的,而在第15章中将讨论采用序列级别的准则进行深度学习模型的优化,这种序列鉴别性训练算法(Sequence-discriminative Training Algorithm)可以进一步显著提高深度学习语音识别系统的识别准确率。
经典语音识别的框架将声学模型和语言模型分成两个部分分别优化,近年来基于深度序列模型,产生了一系列直接将声学特征序列映射为词序列的“端到端模型”,在第16章中将集中讨论若干序列级的端到端深度学习模型及其在语音识别中的应用。
第V部分:复杂场景下的语音识别
在前4部分中,语音识别的应用场景主要被假定为单一语种且相对安静的环境。在第V部分中将针对不同的复杂场景,介绍相关的特定语音识别方法,以及深度学习在其中的应用实现。
第17章描述基于DNN的多任务和迁移学习,其中,特征表示在相关的任务中是被共享的,并可以被跨任务迁移使用。这些技术使得在多语言和跨语言情况下的语音识别性能显著提升。
针对复杂声学环境下的语音识别,第18章介绍基于深度学习的单通道语音增强和语音分离技术,尤其是针对多人单通道的复杂场景,介绍排列不变性训练的相关算法。第19章则综合介绍远场语音识别的前端处理链路,尤其是在麦克风阵列条件下的信号处理技术及深度学习在其中的应用。
第VI部分:口语理解及对话系统的深度学习实践
在对语音识别系统中的深度学习实践进行详细的介绍后,在第VI部分中将对语言理解和口语对话系统中的对话管理部分进行讨论,并介绍深度学习方法在其中的应用。
第20章介绍面向语义信息槽的口语理解框架,从序列标注的角度进行建模,介绍深度学习在其中的具体应用方式。同时讨论不确定性建模、上下文建模和领域自适应等关键技术。
第21章完整介绍多轮任务型口语对话系统的理论框架,并针对其中的序列映射问题、对话状态跟踪和自然语言生成进行详细介绍。第22章针对多轮对话管理中的对话策略学习的核心问题,介绍基于强化学习的数据驱动的对话策略优化框架和数据驱动方法所面临的冷启动问题,并深入讨论深度学习技术在其中的应用。
第VII部分:总结及展望
作为全书的尾篇,第23章对语音识别、口语理解和对话管理的技术路线图进行总结,并展望未来的技术发展方向。