1.4 本章小结

数据缺失是实验研究和行业应用中普遍存在的问题。在实际应用中,若直接基于不完整数据进行分析研究,不仅会增加建模难度和分析过程的复杂性,还会导致分析结果的准确性和可靠性降低。因此,我们需要在数据的预处理阶段对缺失数据进行妥善处理。直接删除法会造成大量的信息缺失,严重降低数据的质量与可信度。缺失值填补通过研究现有数据为每个缺失位置找到一个尽可能合理的替代值,既可以保持原始数据集的规模,又能够保留不完整样本中现有数据所携带的信息,从而为后续研究提供更好的支持。

缺失值的填补方法大致可分为基于统计学的填补方法和基于机器学习的填补方法。基于统计学的缺失值填补方法主要包含均指填补、回归填补等较为传统的填补方法,受到广泛的研究与关注。随着近年来数据集规模的不断增大,鉴于机器学习算法在处理大规模数据时具备良好的表现,将其应用于数据填补工作具有重要的现实意义。常见的基于机器学习的缺失值填补方法包括K最近邻填补法、基于聚类的填补方法和基于神经网络的填补方法等。这些方法在填补过程中充分利用完整样本和不完整样本中存在的属性,可取得高精度的填补结果。目前,缺失值填补的应用范围基本覆盖所有基于数据的科学研究与应用领域,为医疗、交通、金融、环境、工业等领域提供了切实的帮助。在大数据时代,数据缺失将成为更多行业和领域所面临的问题,缺失值填补的研究也将具备更加重要的现实意义。