- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 1314字
- 2021-03-31 21:04:29
2.2.2 不完整样本删除
不完整样本删除法通过剔除不完整样本或者不完整属性,对原始数据集进行裁剪,从而得到一个规模缩减的数据集。假设X={xi|i=1,2,…,6}表示样本数量为6的不完整数据集,其完整样本集合为{x1,x3,x5},不完整样本集合为{x2,x4,x6}。下面以该数据集为例介绍两种常见的不完整样本删除方法,即完全个案分析(Complete Case Analysis)和可用个案分析(Available Case Analysis)。
完全个案分析,又称成列删除(Listwise Deletion),是指删除包含缺失值的不完整样本,仅利用完整样本展开分析。针对不完整数据集X,完全个案分析法是指直接剔除不完整样本集合为{x2,x4,x6},由此得到一个样本数量仅为3的完整数据集{x1,x3,x5},后续所有分析过程均基于所得数据集展开。
完全个案分析法的缺失值处理效果主要取决于数据集的缺失机制与缺失率[11]。正如2.2.1节所述,当缺失值为完全随机缺失时,直接删除不完整样本具备一定可行性。在此情况下,基于完全个案分析法所得数据集的大部分统计值是无偏的,例如均值、方差等。当缺失值为其他缺失机制时,得到的分析结果通常是有偏的。此外,当缺失率较小时,完全个案分析法有着较高的效率以及良好的处理效果,并且不会损失过多信息;而当缺失率过大时,该方式将导致已知信息的大量丢失。尤其当样本数据中仅包含个别缺失值,或者缺失值在样本属性值中占比很小时,完全个案分析法往往不具备合理性。由于现实世界中完全随机缺失的情况很少,并且在某些场景下数据集的缺失率难以控制在较小范围内,因此完全个案分析法有着一定的局限性。
可用个案分析,又称成对删除(Pairwise Deletion),是指在分析过程中仅对用到的属性为缺失值的样本进行删除。例如,在计算数据集中第1个属性的均值和方差时,可用个案分析法仅删除该属性为缺失值的不完整样本,并根据其他样本进行求解。在分析第1个属性和第2个属性的协方差或相关系数时,可用个案分析法将剔除在这两个属性上存在缺失值的不完整样本,并保留其余样本用于分析。
相较于完全个案分析,可用个案分析能够尽可能多地保留数据集的已知信息。但是,其存在诸多争议,所以并不推荐使用。在具体分析时,可用个案分析法根据所用属性内的缺失情况对样本进行不同程度的删除,该过程可看作是基于缺失值分布对不完整数据集进行采样。当缺失值为完全随机缺失时,该采样操作不会影响到原始的样本分布。然而,当缺失值为随机缺失或非随机缺失时,受缺失值分布的影响,可用个案分析法所得数据集的样本分布与原始样本分布未必一致。因此,采样操作可能会对数据集造成扭曲。此外,针对不同的分析需求,可用个案分析选用的样本集合也不相同。例如,在计算数据集中每组属性对的协方差时,所用到的样本视每组属性对的取值情况而不同,故每个协方差均由不同的样本集合计算而来,这将导致后续模型求解和分析的困难。
不完整样本删除法方便快捷,时间和空间开销较低,是实际分析中经常采用的缺失值处理方法。相比于缺失值填补,不完整样本删除法未引入任何人工数据,可避免由填补质量差而导致的分析偏差。但是此类方法具有一定局限性,主要适用于缺失率小且为完全随机缺失的不完整数据集。随着缺失率逐渐增加,数据集中的可有信息将大量丢失,进而影响分析结果的准确性。因此,在不完整样本删除法并不适用的诸多场景下,需根据实际情况设计合理有效的填补方法以处理缺失值。