5.3.1 数据缺失的类型

数据缺乏主要分为以下3类。

完全随机缺失(Missing Completely At Random,MCAR)指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性,如家庭地址缺失。

随机缺失(Missing At Random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失情况与企业的大小有关。

非随机缺失(Missing Not At Random,MNAR)指的是数据的缺失与不完全变量自身的取值有关,如高收入人群不愿意提供家庭收入数据。

对于随机缺失和非随机缺失,直接删除记录是不合适的。对于随机缺失可以通过已知变量对缺失值进行估计并填充,而对于非随机缺失还没有很好的解决办法。