- 机器学习:软件工程方法与实现
- 张春强 张和平 唐振
- 271字
- 2021-01-07 17:12:46
5.3.1 数据缺失的类型
数据缺乏主要分为以下3类。
完全随机缺失(Missing Completely At Random,MCAR)指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性,如家庭地址缺失。
随机缺失(Missing At Random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失情况与企业的大小有关。
非随机缺失(Missing Not At Random,MNAR)指的是数据的缺失与不完全变量自身的取值有关,如高收入人群不愿意提供家庭收入数据。
对于随机缺失和非随机缺失,直接删除记录是不合适的。对于随机缺失可以通过已知变量对缺失值进行估计并填充,而对于非随机缺失还没有很好的解决办法。