1.3 数据分析流程及高级分析

在正式介绍企业数据分析流程及高级分析之前,首先介绍一些企业里常见的数据职位,以及每个职位的人在企业中承担的责任。

业务分析师(Business Analysis,BA):这类人需要了解行业,快速理解业务痛点,能够进行基础的统计数据分析类工作(某些高级一点的职位需要熟练的SQL技能)。他们通常掌握一些基础数据处理分析技能,能够做商业洞察分析类报告。

高级统计分析建模师:一般数据科学家会拥有高级统计分析建模经验,熟悉一些统计或者机器学习算法,能够通过编程实现一些模型分析应用项目。高级统计分析建模师需要熟悉一些工作中用到的算法,如非监督学习、监督学习及聚类等。

1.3.1 数据分析流程

在企业中,经营的方方面面都需要数据分析。互联网公司由于业务变化快,需要实时且持续地通过数据分析,发现企业业务存在的问题,并提出改进的方法,帮助企业解决相应的业务问题。

企业数据分析一般需要以下几个步骤。

· 确定商业目标。

· 确定解决该问题所需要的数据、技术、能力。

· 确定用基本业务分析模型,还是用高级分析模型。

· 数据分析,包括数据准备、数据预处理、数据建模、分析数据并得出结果。

· 数据分析结果汇报。

· 解释结果,提出应用方案。

其中,确定清晰的商业及业务问题,并和相关业务关键人员达成共识,是数据分析类项目成功的关键。接下来的部分属于企业中数据科学家建模、执行的环节。

1.3.2 高级分析

下面介绍在日常工作中常用的高级分析模型—机器学习算法模型。

(1)监督学习:包含的算法有逻辑回归、贝叶斯法、决策树、SVM(支持向量机)。

(2)非监督学习:包含的算法有kNN(邻近算法)、PCA(主成分分析)、K-means(K均值聚类算法)。

下面重点看一下监督学习是如何工作的。

图1-4显示的是一个监督学习模型。企业采集相关数据,并将数据转化为特征向量,通过相应的机器学习模型(这里是监督模型)对特征向量进行训练,最终进行分类预测,得到期望的类型标签。

图1-4 监督学习模型

企业中高级统计分析建模的工作,需要由专门的数据科学家来协助定义问题、建模并将结果进行呈现。一个合格的数据科学家需要哪些核心能力呢?

1.3.3 数据科学家需要具备的能力

要成为数据科学家,需要掌握的核心能力包括数理知识(含传统研究)、业务能力(行业领域经验)、黑客能力(在数据领域工作,尤其是数据科学家,需要通过寻找变量之间的各类关系,不断进行假设、验证,喜欢与数据打交道,能够热衷于研究数据,所以需要黑客的探索精神)等,如图1-5所示。

图1-5 数据科学家需要具备的能力

由此可见,数据科学家需要具备比较综合的跨学科的素质。在具体实践中,不同的算法有不同的优缺点,也有各自适应的场景。当面对不同的问题时,应该选择不同的算法模型。然而,在什么情况下选择什么算法模型,该从什么角度去思考这个问题,是值得每一位初学者深思的问题。