- 基于机器学习的数据缺失值填补:理论与方法
- 赖晓晨 张立勇 刘辉 吴霞
- 497字
- 2021-03-31 21:04:27
第2章 缺失数据的处理方法
数据缺失是科学研究和实际应用中普遍存在的问题,缺失数据的处理方法已经受到越来越多的关注。本章将对常用的缺失数据处理方法进行详细的探讨与分析。首先介绍三种数据缺失机制,即完全随机缺失(Missing Completely At Random,MCAR)、随机缺失(Missing At Random,MAR)和非随机缺失(Missing Not At Random,MNAR),理解这些数据缺失机制对于学习缺失数据的处理至关重要。然后,从不做处理、不完整样本删除,以及缺失值填补三个方面分析常见的缺失数据处理方法。其中,不做处理是将缺失值直接引入具体建模过程,并基于一定规则避免对缺失值的直接处理;不完整样本删除是指删除数据集中的不完整样本,构造样本量缩减的数据集以供后续分析;缺失值填补则通过现有数据的研究为缺失值计算合理的填补值,进而得到与原始数据集规模一致的完整数据集。鉴于缺失值填补方法的良好性能,该处理方式已取得较好的研究成果。本章将对缺失值填补方法进一步探讨,主要涉及缺失值填补的基本概念、缺失值填补方法的多角度分类,以及填补方法的性能度量。
合理的缺失数据处理方法能够改善数据质量,进而提高后续分析的准确性。因此,在科学研究与实际应用中,应该针对具体问题选择行之有效的缺失数据处理方法。