1.4 一个简单的数据分析案例

为了让读者更好地认识数据分析,下面介绍一个企业员工流失预测的例子。我们知道员工主动离职的原因多种多样,一般是员工觉得薪资不合理或者自己受到委屈等。但是,企业培养人才需要大量的成本,为了防止人才流失,员工流失分析就显得十分重要。

这里我们收集了部分离职员工的相关数据,共有6个字段,包括影响员工离职的主要因素(员工满意度、绩效考核、每月工作时长、工作年限、薪资)以及员工是否已经离职。

首先导入数据,示例代码和输出如下:

由于这里的数据已经在Excel中清洗过,没有缺失值和异常值等,因此下面直接进行描述性统计分析,以进一步了解数据的分布情况,示例代码和输出如下:

此外,为了研究员工的平均每月工作时长与是否离职两者之间的关系,下面使用可视化的方法进行深入分析,示例代码如下:

通过运行上面的代码,可以绘制出平均每月工作时长与是否离职的箱线图,如图1-19所示。可以看出离职人员的平均每月工作时长相对较长,也就是说加班可能会导致部分员工离职。

图1-19 箱线图