第5章 数据分析与处理

在第4章提到的机器学习项目流程中,数据分析与处理属于建模前期阶段,在定义y和确认X后,就需要开始数据分析和处理的工作。

数据分析,也称数据探索性分析,目的是了解数据全貌,包括数据概览、可能的错误、基本特征、数据结构和数据相互关系、潜在模式,并以简单而直观的指标或图形呈现。数据分析是一个重要的步骤,它通过数理统计、可视化等手段探索数据的结构和规律,提供了开发模型并正确解释其结果所需的来龙去脉。通过数据分析方法建立对数据的直觉,如果发现数据不太合乎常理且需要对这些异常数据进行核实,那么一定要确保数据的正确性。如果数据的异常或者错误被忽视,可能会导致业务基于错误的数据做出决策,对公司造成资产损失。

数据处理,即根据数据探索性分析得到需要清洗和处理的变量,主要是缺失值、异常值处理和数学变换。数学变换会在第6章详细介绍,本章主要介绍缺失值、异常值的检测和处理。

在介绍数据分析方法之前,先了解一下变量大致有哪些类型。