- 人工智能声学属性拓扑:帕金森病构音障碍的信号分析与表示
- 张涛 薛在发 高乐
- 12字
- 2024-12-31 19:58:17
第1章 研究历史及现有问题
1.1 研究历史
1.1.1 背景及意义
帕金森病(Parkinson’s Disease,PD)是老年人最常见的神经系统退行性疾病。数据统计结果表明,2015年全球的帕金森病患者为620万,预计到2040年,全球的帕金森病患者人数将增加至1290万。帕金森病患者的发病率与年龄有很大的相关性。中国流行病学调查结果显示,在中国,年龄在65岁以上的人群中,帕金森病的患病比例为1.67%,年龄在75岁以上的人群中,帕金森病的患病比例高达2.4%。目前,中国正逐步进入老龄化社会,我国老年人数呈现逐年增加的趋势,与此同时,帕金森病的患病率随着老年人数的增加,也呈现逐年增加的趋势。帕金森病不仅给患者带来心理和身体上的伤害,同时对我国的社会发展也提出了严峻的挑战。
帕金森病主要的病理改变是中脑黑质多巴胺能神经元的缺失,由此引起了纹状体内的多巴胺含量减少。到目前为止,导致这一病理改变的确切病因在医学上仍不清楚。研究指出,帕金森病的成因往往与遗传、环境、神经系统老化等因素有关。帕金森病起病隐秘,进展缓慢,首发症状通常是一侧肢体的震颤或活动笨拙,进而逐渐影响到对侧肢体。根据帕金森病患者的临床症状表现,可将其症状分为两类,一类是帕金森病患者表现出来的运动障碍症状,直接影响着患者的日常行动能力水平,包括静止性震颤、运动迟缓、肌强直和姿势步态障碍等;另一类是帕金森病患者表现出来的非运动性障碍症状,包括认知障碍、睡眠障碍、嗅觉障碍等。帕金森病的这些发病症状已经严重影响了患者的生活质量。
目前,临床诊断法是医学界对帕金森病进行诊断最常用的方法,即依靠经验丰富的医生或专家根据被检测者所表现出来的各种运动状态(如震颤、肌肉僵硬、运动障碍等)和通过询问被检测者所描述的非运动状态(抑郁、痴呆和睡眠障碍等)综合判断该被检测者是否患病及患病的程度。但是,由于帕金森病与多种中枢神经多系统变性病的表现极为类似,在诊断时经常会发生误诊或漏诊的情况。同时,临床诊断法还需要耗费大量的人力、物力和时间,一定程度上会导致患者的病情延误,使病人遭受巨大的身体压力。
对帕金森病患者来说,在患病早期进行诊断对于疾病的控制、治疗和生活水平的提高都至关重要。因此,提出一些可以辅助临床诊断,又可以对帕金森病患者进行尽早发现、尽早诊断和及时治疗的方法,将对大多数患者的病情控制尤为重要。构音障碍是帕金森病重要的早期症状之一,研究表明,约90%的人在帕金森病早期会表现出不同程度的构音障碍。哈雷尔(Harel)等人设计实验观察了帕金森病患者的声学测量在临床诊断开始前和治疗后的变化情况,结果表明患者语音的早期变化是可检测到的前驱症状,为采用语音信号分析帕金森病构音障碍提供了有力依据。此外,采用语音信号进行疾病分析是生物医学、医疗和计算机科学重要的研究领域,且语音数据采集具有便利、无创、低成本等优点,为采用语音信号分析帕金森病构音障碍的研究提供了可行性。因此,帕金森病构音障碍的研究可通过采集语音数据的方式展开。有研究表明,在帕金森病的其他临床显著症状出现之前的4~5年,构音障碍即可被观察到。因此,针对帕金森病构音障碍的研究对于辅助患者的病情诊断有积极意义,有助于对疾病早发现、早治疗。
1.1.2 研究现状
1.帕金森病诊断研究现状
研究发现,帕金森病的病理原因是中脑黑质多巴胺能神经元的变性死亡,引起纹状体内的多巴胺含量显著性减少而致病。这一病理的改变与遗传、环境等因素有关,但是,迄今为止,医学界上还未明确帕金森病的具体病因,因此针对帕金森病的治疗还没有有效的治疗方案。目前绝大部分的患者只是通过服用药物达到控制病情发展,改善病情的症状,减轻患者痛苦的目的。因此,帕金森病的早期诊断尤其重要。
在帕金森病的脑图像分析领域,Zhang等人利用高分辨率T1加权磁共振成像技术,在无痴呆表现的帕金森病患者中检测到了皮质变薄的变化,并指出这些变化与认知功能减退、认知功能损害有关。希曼斯基(Szymanski)等人采用WEKA结合粗糙集探索系统数据的挖掘方法,使用单光子发射计算机断层扫描的技术,对帕金森病患者的局部脑血流进行测量与分析,数据分析结果表明,脑血流的变化强度与帕金森病分级量表相关。拉纳(Rana)等人则结合计算机辅助诊断技术,利用三维体积T1加权磁共振成像技术,测量分析了5个脑部的相关区域用来区分帕金森病患者和健康者。李品品等人利用核磁共振成像技术,观察水通道蛋白在帕金森病患者大脑不同部位的分布情况,为研究帕金森病的发病机制提供了新的观点、新的思路。
在帕金森病的脑电信号分析领域,Restrepo-Agudelo等人开发了一种模拟在深层脑部刺激手术中记录帕金森病患者颅内信号的方法,推动了利用脑电信号进行帕金森病诊断的发展。Handojoseno等人研究了有步态冻结症状的帕金森病患者在转弯时其脑电信号的变化,使用神经网络对采集到的脑电信号进行分类,获得了71%的分类准确率,同时得到帕金森病与大脑皮质动态变化有关的结论。Handojoseno等人在研究中分别计算了早期帕金森病患者和健康者的脑电信号的复杂度,对数据统计、分析发现,在相同条件下,帕金森病患者脑电信号的复杂度要远远高于健康者脑电信号的复杂度。Khare等人提出了一种自适应的可调Q因子小波变换(Tunable Q-factor Wavelet Transform,TQWT),其对脑电信号提供了代表性的分解和重构,对代表性子带提取的相关特征可以有效检测帕金森病。Chawla等人利用柔性分析小波变换对脑电信号进行分解,通过对分解后的子波段计算熵特征来分析脑电信号的动态变化。居拉伊(Gulay)等人利用集合经验模态分解实现对脑电信号的分解,并使用向量自回归模型计算固有模式函数的自回归系数作为特征进行分类。
在基于穿戴设备的帕金森病检测研究中,研究人员采用加速度计、陀螺仪、磁力计、测角仪等传感器对帕金森病患者的运动症状进行精确测量。谢俊枭等人通过融合柔性压阻和柔性压电等多种传感器对步态信号进行采集,并从压阻和压电信号中提取了具有显著性差异的步态特征。此外,学者们通过在人体背部、臀部和四肢上安装三轴加速度计传感器,获取患者的步态数据并提取步态参数等特征,并利用先进的分类算法实现步态冻结检测。在步态冻结分析领域,Ertugrul等人提出了一维局部二值模式和基于机器学习的方法,实验中对不同情况下的步态信号进行分类,得到的分类准确率为88.88%。袁心一等人为了研究帕金森病冻结步态信号在帕金森病诊断中的作用,开发了一套可实时监测步态冻结的系统,利用可穿戴设备采集步态信号并利用信号处理算法提取分类特征,最终得到了98.6%的分类准确率,为医生的诊断提供了可参考的数据。
在基于非穿戴设备的帕金森病检测研究中,主要通过摄像头、智能手机等设备采集患者的行为表现,其低成本、便利及无运动限制的优势受到研究人员的广泛关注。阿尔蒂利奥(Altilio)等人通过智能手机内置的加速度计和陀螺仪对受试者的小腿采集步态运动数据,并提取步幅平均持续时间、标准差及加速度等作为特征进行分类。张凯等人利用双目相机与光学标记点采集帕金森病患者的步态数据,计算出人体运动信号,并在此基础上进行特征参数提取和分类。
在基于手写信号的帕金森病检测领域中,佩雷拉(Pereira)等人建立了螺旋线和迷宫图的手写数据集,为后续的特征提取与检测建立研究基础。李竹等人建立了阿基米德螺旋手绘数据集,并提出了一种基于连续卷积的帕金森病手绘图像分类网络进行分类。萨林(Sarin)等人提出了一种三阶段模糊分类器方法实现对帕金森病动态手写数据的分类,结果表明该方法在帕金森病检测中具有良好的适用性。
构音障碍是帕金森病的早期典型症状之一。调查研究显示,大约有90%的帕金森病患者在其患病早期,都存在着不同程度的构音障碍,因此,针对帕金森病语音信号的分析和研究是非常重要的。基于语音信号的研究诊断存在以下优点:第一,基于语音信号的检测只需采集受试者的语音信号进行分析,是一种经济、便捷的诊断方法。由于帕金森病患者多数为老年人,令其经常去医院进行检测变得不现实;由于使用先进仪器设备产生的高额诊断费用,使大部分的患者望而却步,这些都让患者不能及时地接受检查,从而错过治疗的最佳时期。同时,基于步态信号的采集是利用基于智能传感器的可穿戴设备,达到对帕金森病患者的运动状况进行监测的目的,但是该监测除采集信息所用的时间长、需要医生等专业人士的配合外,还为有运动障碍的帕金森病患者带来了极大的不便。第二,基于语音信号的帕金森病构音障碍诊断能做到早发现、早治疗,达到延缓疾病发展,减轻病人痛苦的目的。
2.基于语音信号的帕金森病诊断研究现状
当前帕金森病构音障碍的研究依据所分析的语音数据主要分为4个方面,分别为发音(Phonatory)、语调(Articulatory)、语态(Prosodic)和认知语言(Cognitive-linguistic)。其中,基于发音方面的研究与声门源和声道的共振结构有关,使用持续元音作为声学材料进行分析。而基于语调、语态和认知语言方面的研究,分别采用词汇、音频片段、不同结构的短语和不同复杂度的句子等连贯性语音分析语音中的情感和情绪表现。帕金森病更多地作用于患者的发音方面。目前针对帕金森病患者发音方面的研究,主要可以分为声学特征表示与深度学习表示两类。
在通过声学特征表示进行帕金森病构音障碍的相关研究中,经典的声学特征如扰动(Jitter)、闪烁(Shimmer)、谐波噪声比(HNR)等提出较早,但对这些特征的使用目前尚未达成共识。此外,由于这些特征从单一时域或单一频域中提取得到,因此缺乏描述语音的完整信息。有研究通过对语谱图的成分进行分析解释,证明帕金森病患者与健康者的语谱图成分存在统计学上的显著差异。语谱图蕴含语音时间和频率两方面的特性,因此学者们更为注重能够同时体现语音时间和频率信息的声学特征提取方法。Kodrasi等人使用基尼指数或参数稀疏度测度估计语音的声谱-时间稀疏度,并将其作为特征,该特征具有很好的分辨性。戈亚尔(Goyal)等人提出了一种利用共振和时频的信息提取特征的方法,表明了语音如何随着时间与频率变化,并提供了有用的信息。卡兰(Karan)等人引入时频特征模拟语音由于帕金森病引起的不连续与突变,证明了相较于标准特征集,时频特征具有更好的效果。
此外,在不同的时频变换域中提取的特征已经引起广泛关注,如在Mel变换域中采用倒谱分析和频谱域划分相结合的三角形状重叠滤波器组,提取Mel倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)作为特征以区分帕金森病患者与健康者。但依靠频域滤波器组模拟人的听觉系统削弱了语音中的高频成分。与MFCC提取过程类似的还有人因子倒谱系数(Human Factor Cepstral Coefficient,HFCC)和本征模态函数倒谱系数,这类特征存在高频特征描述差、系数选择困难等限制。基于小波变换提取的频率特征取得了良好的结果,但是该特征受语音序列信息的影响,并且小波分解的层数也会影响准确性。沙卡尔(Sakar)等人提出了可调Q因子小波变换,通过优化小波函数的质量因子提高了通过经典小波变换提取特征的分类精度。López-Pabón等人在希尔伯特域中提取的前两个共振峰模拟说话人在产生调制元音时的稳定性,并剔除了冗余和不相关的特征。这些在时域和频域中提取的特征表明,经过时频变换后的信息相较于单一的时域或频域更全面也更稳定,但也有相对应的局限性。
在众多基于不同时频信息提取的研究中,注重描述能量变化的统计特征表现出优势。卡兰(Karan)等人提出了基于希尔伯特谱的瞬时能量偏差倒谱系数,在此基础上提取了新的希尔伯特倒谱系数特征,该声学特征提取自语音的瞬时频率和能量向量,根据绝对能量偏差与频率偏差进行分类,实现了96%的分类准确率。张涛等人提出了基于经验模式分解的能量方向特征(Energy Direction Features Based on Empirical Mode,EMD-EDF),该特征通过计算每个子信号能量谱的方向导数得到,获得了96.54%的分类准确率。进一步地,提出了一种基于时域和频域的局部梯度统计特征(Local Gradient Statistical Features,SFLG),通过统计能量数据在时间轴与频率轴上的差分值来计算其梯度特征。这些研究表明了时域和频域中能量的变化信息在描述帕金森病发音特点中的优异性。
与此同时,已经有学者应用形式概念分析的理念,将语音的有效信息映射到图域。王婷婷等人提出了一种k-移算子构建语音的有向拓扑图,并利用其奇异特征向量构造了一个新的图傅里叶基,研究了语音在图谱域的图频特征。张涛等人将偏序拓扑图(Partially Ordered Topological Graph,POTG)应用于帕金森病语音特征集进行概念提取,分析语音特征与帕金森病的关系。张涛等人还采用属性拓扑对帕金森病患者的构音障碍进行特征表示,揭示了属性拓扑理论在描述属性间关联程度中的作用。
另外,随着近年来深度学习的发展,越来越多的学者将深度学习的方法应用于帕金森病的构音障碍研究中。基于深度学习特征的帕金森病构音障碍诊断主要包括以下几个步骤:首先,对语音信号进行时频变换,得到语音信号的时域和频域的综合信息表示,即语谱图;然后,将得到的谱图输入不同的深度学习网络中,通过对网络进行多次训练、迭代操作,找到网络的最优参数,进而提取语音信号的深度学习特征;最后,送入分类器达到对帕金森病患者和健康者的语音信号分类的目的。图1-1以最常用的三种深度学习网络为例,绘制了基于深度学习网络提取语音特征的帕金森病语音信号诊断研究的流程图。
图1-1 基于深度学习网络提取语音特征的帕金森病语音信号诊断研究的流程图
在基于深度学习特征的帕金森病语音信号诊断的研究中,师浩斌提出了基于AlexNet网络模型构造多层卷积神经网络对语音特征进行可视化,实现帕金森病构音障碍的分类。沃津斯基(Wodzinsk)等人将原本致力于图像分类的ResNet体系结构进行改进,将其用于帕金森病语音数据集,取得了90%的分类准确率。王娟等人构建HR-DCGAN-VGG16混合模型,首先对语谱图进行扩充,并通过VGG16模型从中提取声纹特征,在一定程度上解决了帕金森病语音数据样本规模少的问题,同时获得了90.5%的分类准确率。Fatlawi等人利用深度置信网络实现了94%的帕金森病语音分类准确率。Lucijano等人利用多个不同结构的前馈人工神经网络对帕金森病进行分类,得到了86.47%的分类准确率。马洁等人设计了一个深度样本学习算法,与深度网络结合进行特征学习,获得了新的高层次深度特征数据,并将深度特征与原始语音特征融合,从而实现帕金森病语音数据的深度双侧学习,平均分类准确率达到98.4%。
可以看出,基于深度学习的方法在帕金森病构音障碍的研究中具有明显优势。但深度学习网络模型的训练对于数据量的要求较大,而目前帕金森病领域普遍存在数据集规模较小的局限性。当数据量较少时,模型由于训练数据的不足导致难以学习更加全面的特征,从而降低网络模型的性能。为了弥补当前帕金森病语音数据集规模的限制,越来越多的学者将迁移学习的思想融入其中。卡拉曼(Karaman)等人开发了一种基于迁移学习的深度卷积神经网络模型用于对帕金森病的快速分类研究,其中经过培训评估最合适的微调结构DenseNet-161的分类准确率达89.75%。张小恒等人提出了一种与采样和特征选择算法相结合的稀疏核迁移学习模型用于帕金森病分类,通过对帕金森病目标域(包括训练和测试数据集)进行卷积稀疏编码提取更深入的信息。Rezaee等人提出了一种混合深度迁移学习的方法,将从三个深度预训练的架构中提取的特征堆叠起来,在帕金森病分类任务中获得分类准确率的提升。
另外,卷积神经网络(Convolutional Neural Network,CNN)作为典型的深度学习网络框架,也被广泛用于帕金森病构音障碍研究。Khaskhoussy等人将在卷积神经网络中训练所得的深层语音特征输入支持向量机(Support Vector Machine,SVM)进行帕金森病的分类研究。Máté Hireš等人提出了一种多重微调的端到端的卷积神经网络方法,以减少源任务和目标任务之间的语义差距,实现帕金森病的语音识别。张涛等人通过建立语音的深度学习特征与传统声学特征之间的关系,增强卷积神经网络自动学习语音特征的可解释性。但卷积神经网络的局限性在于,其局部性较强、感受野受限、不擅长捕捉全局信息,无法建立相距较远的像素点之间的联系,因此导致特征之间的依赖关系较差。即使加深网络层,相距越远的像素点之间可行信息的传递路径也越少。针对卷积神经网络的限制,刘泽等人提出了Swin Transformer,在采用类似卷积神经网络的层级化搭建方式之外,增加了基于偏移窗口的自注意力计算机制,从而实现了不同窗口间的信息融合,扩大了感受野。通过灵活地处理数据,使得特征学习的过程更加具有关联性,并获得了更优的分类性能。