- 数据科学实战指南
- TalkingData
- 645字
- 2020-08-28 00:07:27
1.2 数据科学项目概述
数据科学项目是利用数据科学来解决问题的数据项目。数据科学项目想要取得成功,需要项目参与者、数据和工具的配合,缺一不可。
和普通项目相比,数据科学项目往往具有以下特点。
数据科学项目的需求可能是之前从未遇到过的,或是现有行业中的新需求,或是针对新行业,之前的相关积累很难复用。
客户的需求可能是复杂的、多维度的,涉及多条业务线,受到业务线交叉的影响。
针对客户需求所提供的产品/服务资产专用性较高,难以合并同类项或者利用资源的协同性达到降低成本的效果。
可以说开展数据科学项目像极了在实验室里做实验,也可以说,每次开展数据科学项目都好比进行了一次新的精益创业——往往没有多少成熟的前人经验用以借鉴,需要通过逻辑思辨和巧妙的组合,将企业现有的能力有机转化为针对某个特定需求(不是特定客户,也不是特定场景)的产品或服务。数据科学项目是面向某个特定的数据科学问题的、满足科学项目基本流程特征的项目,其产出是最小可执行的数据产品(MVDP)。
相较于其他项目,数据科学项目的一个显著的特点是,其经常会与数据处理的过程以及数据产品产生的过程形成耦合。图1-2展示了一个典型的数据科学项目的流程,可以看出,数据科学项目的过程包括采集数据、整合数据、训练模型、部署模型等。在这个过程中,不同的阶段有不同的产出:有的阶段产出结构化的、可分析的数据集,有的则产出待优化的模型。没有一个数据科学项目是能够一次性得出最佳模型的,因为数据处理的过程和挖掘数据含义的过程,就是不断尝试、不断校准的过程。
图1-2 数据科学项目流程