- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 2082字
- 2021-03-31 21:04:33
3.1.2 热平台填补法
热平台填补法是指在一组完整样本中寻找与不完整样本相似的样本,并利用该样本的属性值填补缺失值。该方法不以统计量或推测值为填补结果,而是直接以数据集中样本自身的数值为填补值。
在此类方法的设计过程中,需要解决的主要问题是如何选择相似样本。处理该问题首先要确定相似样本的来源。传统的热平台填补法从数据集全体完整样本中寻找与不完整样本相似的样本,不仅会增加算法的时间复杂度和空间复杂度,还往往使得所选样本与不完整样本的相似度不高,影响填补精度。因此,为了更有效地选择相似样本,通常采用与分层均值填补法相似的方式,找出与不完整属性相关联的属性,并基于此将数据集划分为不同的子集,将各子集作为相似样本的来源。假设子集的数量为L,其中第l个子集记为X(l)。针对该子集中的不完整样本,根据选择相似样本的方式不同,可将热平台填补法分为随机热平台填补法、最近邻热平台填补法和序贯热平台填补法。下面依次进行介绍。
1.随机热平台填补法
随机热平台填补法从不完整样本所在子集中随机抽取完整样本作为其相似样本,并将相似样本的现有值作为填补结果。该方法的主要优势在于当不完整样本数量较多时,其选择相似样本的方式可视为一种有放回的随机抽样,所得填补结果不会影响样本总体分布情况。同时,该方法简单易行,时间和空间复杂度低,是社会调查领域较为常见的缺失值处理方法。然而,即使相似样本源于不完整样本所在的子集,在一定程度上保证了填补结果的有效性,但由于相似样本是随机选择的,往往很难保证各填补值的精度。
2.最近邻热平台填补
最近邻热平台填补法根据不完整样本中的现有值计算其与完整样本的距离,从而选择相似样本。为了获得更加精确的近邻样本,该方法通常根据与不完整属性相关联的属性计算样本距离。在该方法中,常用的距离度量指标包括欧式距离和马氏距离(Mahalanobis Distance)。假设子集X(l)中的样本数量为n(l),对于数据集中的样本xi(i=1,2,…,n(l)),若其第j个属性不完整,记该属性的相关属性编号为j1,j2,…,jM,定义={xi|xi∈X(l),∀ xij≠?,j=1,2,…,s}为子集X(l)中完整样本的集合,xi与其中完整样本xk的欧式距离如式(3-3)所示:
式(3-3)中,xijm、xkjM分别为样本xi、样本xk的第jM个属性。作为一种常见的距离度量方式,欧式距离直接计算两点在空间中的分布距离,设计较为直观,但其将样本不同属性等同看待,未能将属性间的相关性纳入计算过程中,这一点有时不能满足实际要求。为此,可将马氏距离作为样本间距离的度量。对于样本xi,基于属性j1,j2,…,jM所得与样本xk的马氏距离表示如式(3-4)所示:
式(3-4)中,表示基于编号为j1,j2,…,jM的属性所求解的协方差,可用于记录属性间的相关性。矩阵S中的元素stt'表示第jt个属性与第jt'个属性的协方差,其中t=1,2,…,M;t'=1,2,…,M。对于子集X(l),仅根据其中的完整样本计算协方差[1],计算方法如式(3-5)所示:
式(3-5)中,nco(l)表示集合Xco(l)中的样本数量,jt、jt'分别表示Xco(l)中各样本在第jt个属性和第jt'个属性的平均值。根据实际情况选择式(3-3)或式(3-4)计算xi与各完整样本的距离,并获取最近邻样本的现有值用于缺失值填补。相比于随机热平台填补法,此方法对数据集中现有值的利用更加充分,所得填补结果更贴近真实值。
3.序贯热平台填补法
序贯热平台填补法通过计算属性间的相关性找出与不完整属性相关性最高的完整属性,随后对子集内的样本基于该完整属性按照一定的顺序排列。对于不完整属性中的缺失值,将其上方相邻样本的现有值作为填补结果[2]。该方法常采用皮尔森相关系数(Pearson Correlation Coeff icient)度量属性间的相关性。与计算协方差类似,皮尔森相关系数同样是基于完整样本集Xco(l)获取的。对于第j个属性和第j'个属性,皮尔森相关系数如式(3-6)所示:
式(3-6)中,j、j'分别为两属性内现有值的均值,σj、σj'的计算规则如式(3-7)所示:
分别计算各属性与第j个属性的皮尔森相关系数,该相关系数的绝对值越大,表明两属性的相关性越高。接着寻找最大相关系数对应的属性,并根据样本在该属性上的取值对样本重新排序。对于第j个属性存在缺失的样本,获取其相邻样本的属性值作为填补结果。相比于最近邻热平台填补法,该方法仅根据与不完整属性相关性最高的单个属性寻找相似样本,虽然参考的属性数量减少,但对属性间相关性的挖掘更加细致,在实际应用中可结合具体情况选用这两种方法。
热平台填补法常用于处理社会调查中的数据缺失问题,是美国人口调查局经常使用的缺失值填补方法[3]。该方法极少使用同一数值作为大量缺失值的填补结果,对数据离散程度的影响很低。然而,由于填补值直接来源于其他样本,在将其应用于回归问题时,易使回归方程的误差增大,参数估计的稳定性下降,耗费更多的时间,给回归问题的计算带来不便。
在热平台填补法中,完整样本来源于不完整样本所在的数据集。冷平台填补法是相对于热平台填补法而言的,从其他历史数据集中获取填补结果。与热平台填补法类似,针对各不完整样本,该方法从历史数据集中选择相似样本,并采用相似样本的现有值作为填补结果。例如,在人口普查数据中,若某样本的“居住地”属性缺失,则采用该样本最近一次接受调查时填写的居住地作为填补值。冷平台填补法选择相似样本的方式与热平台填补法大体相同,此处不再赘述。