5.4 异常值分析与处理

异常值(Outlier)是指那些在数据中明显与其他数值偏离的少量数值,可以通过统计检测(如三西格玛检测)和可视化(如箱型图)发现。在日常的数据分析中经常会遇到异常值,要慎重处理。发现异常值后,对于是否要删除,需要结合专业知识和统计学方法,看能否得到合理的解释。如果数据存在逻辑错误,同时无法找到原观察对象进行核实,那么就只能将该异常观测值删除;如果能得到合理的解释,则可以考虑保留。

异常值的产生大致有两个原因:

1)偶然事件的极端表现,这是真实而正常的数据,只是在某次表现得有些极端,这类异常值与其余观测值属于同一总体。例如一个App的每日登录用户数量在一般情况下都相对稳定,而在大范围运营推广活动期间可能会暴增。

2)由系统的偶然性故障或人为录入数据的失误所产生的结果,这是一种非正常的、错误的数据,这些数据与其余观测值不属于同一总体。