2.1.3 非随机缺失

非随机缺失是指,数据的缺失概率不仅与非缺失变量相关,还与缺失变量相关。基于式(2-1)所定义的数据缺失情况描述,在非随机缺失机制下,样本xi中xij的缺失概率如式(2-4)所示:

非随机缺失是现实世界中一种常见的缺失机制,例如,教育程度低的人不愿公布其受教育情况,导致样本中教育程度属性的缺失;在跟踪调查病患的治疗过程时,某些病患因病情过重或病情好转而不再接受检查,导致数据缺失。因此,非随机缺失相较于前两种机制更难以处理。一种较为常见的解决思路是通过寻找缺失值与现有值之间的联系将其有条件地转化为随机缺失机制。常用的方式有构造不完整属性的置信区间,通过条件假设建立约束[7]等。此外,还可采用基于Heckman样本选择误差模型的填补、形态混合模型的最大似然估计填补、形态混合模型的多重填补[8]等方法处理该缺失机制下的缺失数据。

对数据缺失机制的合理推测能够提高不完整数据的分析质量。目前,缺失机制的推测主要依靠对数据缺失原因的探究,或者研究领域的知识背景等。总体而言,完全随机缺失和随机缺失是不完整数据分析中较为常见的前提假设,而非随机缺失可通过一定方式转化为随机缺失。因此,本书主要是在完全随机缺失和随机缺失机制的基础上对缺失值填补方法展开研究。