2.2 缺失数据的处理

常见的缺失数据处理方法主要包括三类,即不做处理、个案删除和缺失值填补。不做处理是指对数据集中的缺失值不进行任何处理,直接将其应用于分析过程。此方式能够降低缺失值预处理对数据集原始信息的破坏,但是模型构建具有一定难度。个案删除方法通过剔除不完整样本或者不完整属性,构造一个规模缩减的完整数据集。此方法简单方便,然而易导致数据集中可用信息的减少。缺失值填补方法是指通过研究现有数据为每个缺失值估算一个尽可能合理的替代值,这样能够在保持原始数据集规模的同时,利用推断所得的填补值辅助后续分析的有效进行。