- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 4070字
- 2021-03-31 21:04:39
3.4.2 基于证据理论的填补方法
证据理论是一种处理不确定性信息的方法,由Dempster首先提出,并经Shafer改进,故常被称为Dempster-Shafer(D-S)理论。D-S理论具备直接表达不确定性的能力,与缺失值的特性相符合,因此可将其应用于缺失值填补等不完整数据的分析过程。
与多重填补法相似,基于证据理论的填补方法对每个缺失值进行多次填补,得到多组填补值,接着根据若干填补值求解多个分析结果并对其进行融合。不同于多重填补法的合并方式,该方法基于D-S理论合并分析结果,进而处理缺失值对分析产生的不确定性。
首先介绍D-S理论的基本概念。在证据理论的研究中,识别框架是一个互斥且非空的有限集合,可记为Θ,该集合代表某一问题所有可能的分析结果。幂集2Θ包含Θ的所有子集,能够体现出分析结果的不确定性,即有时无法得到某一问题的确切结果,而是会求出多个可能的分析结果。若Θ={a,b},则其幂集可表示为式(3-120):
幂集2Θ内的集合也称为“假设”(Hypothesis),每个“假设”都会被赋予一个信念值(Belief Mass),用于衡量其可信度。将幂集2Θ映射为信念值的过程称为基本概率分配(Basic Probability Assignment,BPA)或者基本信度分配(Basic Belief Assignment,BBA),与其对应的映射函数称为mass函数,记作m(·),定义见式(3-121)[26]:
由式(3-121)可知,mass函数能够将幂集2Θ内的每个元素映射为[0,1]范围内的数值,并且mass函数需满足式(3-122)中的两个约束:
式(3-122)中,m(∅)表示空集的信念值,B表示幂集2Θ内的元素,即“假设”,m(B)表示B的信念值。由式(3-122)可知,空集的信念值为0,并且幂集内所有元素的信念值总和为1。
信任函数(Belief Function),或者信度函数,可定义为式(3-123):
式(3-123)中,B表示2Θ内的集合,B1是集合B中的元素,B的信任函数值等于该集合内所有元素的信念值总和。
似然度函数(Plausibility Function)的定义如式(3-124)所示,多数研究也将该函数译为似然函数,但此处的似然函数和3.3.1节的似然函数,即Likelihood Function,是完全不同的概念。为了对二者做出明确区分,下面将该函数统称为似然度函数。
式(3-124)中,B和B2均表示2Θ内的集合,B的似然度函数值等于幂集内与B交集不为空的所有集合的信念值总和。
信任区间用于表示某假设的信任度范围,根据信任函数和似然度函数的取值情况,信任区间可表示为式(3-125):
式(3-125)中,B表示幂集2Θ内的集合,P(B)表示B的可信程度。
Dempster合成规则是指对两个mass函数进行融合的方法,定义为式(3-126):
式(3-126)中,B、B1和B2均表示2Θ内的集合,m1,2(·)表示合成后的mass函数,⊕表示合成算子,m1(·)和m2(·)表示待合成的两个mass函数,K'表示归一化因子,定义如式(3-127)所示:
D-S理论可对多个mass函数进行合成,从而获得2Θ内每个集合的信念值。为实现最终的决策支持,可根据式(3-128)将这些信念值转化为识别框架Θ中每个元素的概率:
式(3-127)中,S表示识别框架Θ内的元素,B表示幂集2Θ内的集合。
下面以一个具体实例阐述D-S理论的计算过程。假设在家庭经济情况数据集中,某家庭为贫困户,则标记为a,否则标记为b。由此,某家庭是否为贫困户的判定结果可构成识别框架Θ={a,b},其幂集2Θ={,{a},{b},Θ}。两位专家在对某家庭的各类指标数据分析后,得出两组分析结果,分别为m1={0,0.3,0.5,0.2},以及m2={0,0.4,0.3,0.3},m1和m2是基于mass函数m1(·)和m2(·)所得信念值构成的集合,其中每个位置上的数值表示2Θ中相应位置上元素的信念值。例如,专家1认为该家庭是贫困户这一假设为真的可信度是0.3,专家2认为是此可信度是0.4。综合两位专家的分析结果,根据式(3-126)所示的Dempster合成规则对结果进行融合。
首先计算归一化因子,结果如式(3-129)所示:
接着合成两组分析结果,根据mass函数的性质,m1,2()=0,而合成之后{a}、{b}和Θ的信念值分别如式(3-130)、式(3-131)和式(3-132)所示。
根据合成后的mass函数m1,2(·)计算信念值,并将得到的信念值构成集合m1,2={0,0.41,0.51,0.08}。为了实现最终的决策支持,采用式(3-128)将这些信念值转化为如式(3-133)所示的概率:
根据概率值可知,所研究家庭为贫困户和非贫困户的概率分别是0.45和0.55,因此可把该家庭纳为非贫困户。
鉴于D-S理论能够合成多个mass函数,利用该理论可有效合并由多组填补值得到的分析结果。与多重填补法类似,基于证据理论的缺失值填补方法同样包括3个步骤:填补、分析和合并。填补阶段,对缺失值进行多次填补并得到多个完整数据集;分析阶段,基于填补后的若干完整数据集展开分析并求解多个分析结果;合并阶段,利用D-S理论对多个分析结果进行融合,以获得最终的分析结果。接下来详细介绍基于证据理论的缺失值填补方法[27][28][29]。
首先在填补阶段,根据3.4.1节所述的基于随机干扰项的多重填补法、贝叶斯多重填补法等为每个缺失值计算多个填补结果。此处采用KNN的思路计算多个填补值,即首先为每个不完整样本寻找K个近邻样本,接着以每个近邻样本中的相应属性值填补缺失值。例如,针对不完整样本xi,在填补后可得到K个填补样本xi(k)(k=1,2,…,K),其中,xi(k)表示以第k个近邻样本的属性值填补缺失值后得到的完整样本。
为了使描述更加清晰,此处假设不完整数据集具体分析过程是分类,以此介绍基于多组填补结果的分析与合并过程。令Θ表示识别框架,即类标签所有可能取值构成的集合,Θ={l1,l2,…,lC},C表示类标签可取值的数量。在分析阶段,利用分类算法对填补后的多个完整数据集展开分析,从而为不完整样本xi计算K个分类结果,Pi(k)={Pi(k)(l1),Pi(k)(l2),…,Pi(k)(lC)},其中Pi(k)(lc)(k=1,2,…,K;c=1,2,…,C)表示基于第k个填补样本xi(k)将样本xi划入第c类的概率。
令Ω={Θ,{l1},{l2},…,{lC}},元素Θ的加入是为了使后续求解的mass函数满足式(3-122)的约束,即所有信念值的总和为1。合并过程可分为3步:针对K个分类结果计算K个mass函数,分别记为mi(k)(·)(k=1,2,…,K);在考虑缺失值的基础上,进一步处理K个mass函数,即将其转化为针对每个类标签的mass函数,记为i(lc)(·)(c=1,2,…,C);融合C个mass函数i(lc)(·)(c=1,2,…,C),得到最终的mass函数mi'(·),对该函数所得的信念值进行归一化以计算最终的类标签。下面介绍具体实施过程。
步骤1:由于填补精度的不同,基于样本xi(k)得到的分类结果具有不同的可信度。若xi(k)中填补值与真实值间存在较大误差,则相应的分类结果Pi(k)可能并不准确。因此,可在考量填补算法性质的前提下,为每个分析结果计算一个权重,以此衡量结果的可信度。鉴于KNN方法的性质,可根据不完整样本与近邻样本间的距离求解权重,若距离较远,则认为填补值的精度相对较低,分类结果的可靠性也相对较低。
令dik表示不完整样本与其近邻样本间的距离,则权重可以由式(3-134)求得:
式(3-134)中,wi(k)表示第k个近邻样本对应的权重。
为使wi(k)位于区间[0,1]内,根据式(3-135)对上述权重进行归一化,由此得到相对可信度ai(k):
式中,。
基于D-S理论,为Ω内每个集合分配信念值,相应的mass函数mi(k)(·)可表示为式(3-136):
式(3-136)中,Bc表示Ω内除Θ以外的集合,所有集合的信念值总和为1,其推导过程如式(3-137)所示。
由此可得到K个mass函数mi(k)(·),k=1,2,…,K。
步骤2:根据式(3-138)对mass函数进行分组:
式(3-138)中,Gc表示由mass函数构成的集合,在mass函数mi(k)(·)的基础上,计算识别框架Θ中每个元素为真实结果的概率。该函数已在式(3-128)进行说明,本例中该函数可进一步表示为式(3-139):
接着,对分组Gc内的多个mass函数进行合成,合成后得到的mass函数可记为mi(lc)(·),计算方法如式(3-140)所示:
式(3-140)所求mass函数mi(lc)(·)具有不同的可信度。分组Gc可视为基于投票机制产生的集合,K个mass函数mi(k)(·)各拥有1票,并且只能为一个分组投票,而投票的表现形式是将自身加入分组。拥有票数越高的分组,即元素个数越多的分组,其可信度也越高。
令βi(c)表示分组Gc的可信度,其定义为式(3-141):
式(3-141)中,a1、a2和a3是对数函数的参数,nc表示分组Gc内元素的个数,nmax=max(n1,…,nC)。利用分组的可信度对mi(lc)(·)进行修正,修正后的mass函数i(lc)(·)见式(3-142):
步骤3:针对集合Ω={Θ,{l1},{l2},…,{lC}}中的每个元素,i(lc)(·)为其分配取值在[0,1]区间的信念值。采用合成规则将i(lc)(·)合为一个mass函数m'(·)后,即可借鉴式(3-139)设计BetPm'i(·)函数,并得到最终的分析结果。然而,基于上述方式所得的最终分析结果仅能从集合Θ={l1,l2,…,lC}中产生,即每个样本会被明确地指定为某一具体类。鉴于部分不完整样本的质量较低,分类结果存在不确定性,故无法将其明确指定为一个具体类。与其将样本误判为某一具体类,不如将其指定为多个隶属概率极大的类,由此避免误判。
基于上述思路,mass函数i(lc)(·)合成前,对集合Ω={Θ,{l1},{l2},…,{lC}}进行扩充。首先采用式(3-143)求解每个mass函数i(lc)(·)最倾向的分类标签。
随后,将可能性较大的多个类标签构成集合Φi,该集合的定义见式(3-144):
式(3-144)中,nc表示i(lc)(·)对应分组Gc的元素个数,nmax表示分组Gc所含元素个数的最大值,ε表示阈值。由式(3-144)可知,仅当分组Gc的元素个数足够大并满足阈值限制时,才能将i(lc)(·)最倾向的分类标签lc*置入集合Φi内。
接着,根据集合Φi对Ω进行扩充,令扩充后的集合记为Ω',其定义如式(3-145)所示:
式(3-145)中,Φi'=2Φi-{{lc}|c=1,2,…,C}-,是幂集2Φi内元素数量大于1的集合。在集合Ω'的基础上,对mass函数i(lc)(·)进行合成,合成规则见式(3-146)。
式(3-146)中,B表示Ω'内的元素,mi'(B)表示合成后B的信念值,需分两种情况计算mi'(B)。若B⊂Ω,令Bc表示Ω内的任意元素,仅当这些元素的交集等于B时,才可提取mass函数i(lc)(·)关于相应元素的信念值i(lc)(Bc)(c=1,2,…,C),并采用连乘操作求解运算值,由此得到mi'(B)。若B⊂Φi',利用B(c)(c=1,2,…,|B|)提取B内第c个元素,从而得到可能性较大的分类标签lB(c),c=1,2,…,B,并得到相应信念值ilB(c)(Bc)。令B=Θ-B,利用B_(g)(g=1,2,…,|B_|)提取集合B_内第g个元素,进而得到可能性较小的分类结果lB_(g),并获得相应的信念值ilB_(g)(Θ),接着将所得信念值进行连乘操作以求解运算值,由此获得信念值mi'(B)。
最后,采用式(3-147)得到归一化后的mass函数mi(·)。
至此,合并过程结束,mi(·)为集合Ω'内的每个元素分配了取值范围在[0,1]内的信念值,最大信念值对应的元素将作为最终的分类标签。
基于证据理论的缺失值填补方法通过定义一系列合并规则对由多组填补值得到的分析结果进行有效融合,以此得到最终的推断。其与多重填补法存在诸多相似之处,均包括填补、分析与合并过程。多重填补法更加注重填补期间多组填补值的获取,而本节所述方法则更加注重多组填补值所得分析结果的合并。因此,可在两种方法的基础上设计缺失值填补方法,使得填补与合并过程更加合理,从而有效应对缺失值所导致的不确定性。