- 数据科学实战指南
- TalkingData
- 2359字
- 2020-08-28 00:07:27
第1篇 数据科学项目之战壕篇
第1章 数据科学项目的概念
1.1 数据科学概述
在介绍数据科学项目之前,我们先来介绍一下数据科学。如果你还不了解数据科学,那么就通过以下内容一探究竟吧!
1.1.1 产生背景
从线下活动到线上活动,从PC互联网到移动互联网再到物联网(IoT),人类社会产生的可收集数据的体量呈指数级增长。比如人们日常上网“冲浪”,就会留下许许多多的“足印”。
浏览的网页
在网页上逗留的时间
点击的链接
在社交网站上发表的内容
与之进行互动的人或组织
点赞的内容
即便只采集某一天的“足印”,这些数据的体量也是非常巨大的——如果用 A4纸将这些数据以默认的正文字体和字号进行打印,然后一张张堆积起来,高度堪比从地球到月球的距离。
再来看几组数据:2017年,全球 IDC 市场规模再创历史新高,达到534.7亿美元;据TalkingData 2018年第二季度的数据统计,中国已经拥有15.1亿智能手机用户,使用智能手表等可穿戴设备的用户数量也已经达到千万级,同时各种传感器的使用数量超过了80亿。智能设备无处不在,正在随时随地产生各种维度的数据。
数据量级不断增长,数据维度不断增加,数据类型日益复杂,这些变化一方面让新的业务模式成为可能,另外一方面也让传统的数据处理工具捉襟见肘。人们在沉醉于大数据红利的同时,也被大数据所淹没——我们在思维方式、工程能力、管理手段、技术工具等方面都面临重大挑战,我们需要通过新的方法来解决问题,以便更好地从数据之海中获取洞察力,指导决策。
因此,数据科学应运而生,它将深刻地改变企业的决策方式。
1.1.2 概念定义
如今许多产品或服务中都有数据科学的身影,例如广告推荐、食品药品安全质量检测、电影票房预测、潜在客户寻找等。
那么,什么是数据科学呢?
“数据科学”一词在20世纪60年代至80年代间经常出现在计算机科学文献中。然而,直到20世纪90年代后期,这个词才开始时常出现在统计和数据挖掘领域。
2001年,数据科学成为独立学科,横跨计算机科学、统计学、数学、软件工程等多个领域,从定义与解决实际问题出发,经过描述、发现、预测、建议四个环节,从数据中获得洞察力,从而解决问题。
传统领域中也有和数据科学相似的概念,例如高级分析(Advanced Analytics)、数据挖掘(Data Mining)、预测分析(Predictive Analytics)等,但是数据科学可以应对更大的数据量级和更复杂的数据类型。如今,关于数据科学的文章数不胜数,而数据科学家也被认为是“21世纪最性感的职业”。
数据科学是将数据转化为行动的艺术,这种转化主要通过开发数据产品来完成。数据科学产生的数据产品可以提供可执行的信息,如金融工具的买/卖策略、提高产品收益率的措施、改进产品营销的步骤等,而无须将底层数据暴露给决策者。
数据产品能回答以下问题:应该对哪些产品进行更多的广告宣传来提高利润?如何在降低成本的同时改进合规计划?采用什么制造工艺才能实现一个更好的产品?而回答这些问题的关键在于,了解我们拥有的数据以及归纳这些数据中包含的信息。
数据科学鼓励从演绎推理(基于假设)转向归纳推理(基于模式)。通过数据科学操作得到的大量数据之间的相关性取代了因果关系和严格的理论模型,基于这些相关性,我们可以获得新的洞察力。相对于传统分析方法,这是一个根本性改变。归纳推理提供了一种形成假设并发现新的分析路径的手段,模型不再是静态的,它们将不断被测试、更新和改进,直到变得更好。
为了高效探索数据中的价值,我们需要数据分析技术和数据工程的配合。数据分析是对特定的数据进行分析和洞察的行为。如果说数据科学是工具和方法的房子,那么数据分析就是房子中的特定空间。数据工程是指利用各种工具、方法或系统,高效探索和转化数据商业价值的工程化技术。我们常说的业务数据化,其实就是业务的数据工程化,即通过对业务数据进行收集、整理、分析,实现对业务更深入的理解,并最终实现业务的持续优化。
应用数据科学的最简单的例子是搜索引擎,它将用户在搜索中的交互行为数据化,然后根据用户停留时长、点击次数等条件优化搜索结果的展示效果,提升用户搜索体验,吸引更多的用户使用,进而产生更多的数据用于优化。这是一个数据闭环,能够实现持续的业务优化。
1.1.3 数据科学也需遵循科学过程
数据科学之所以被称为一门“科学”,是因为数据科学中也蕴涵着科学的因素,其中的任务要用科学的方法处理。
数据科学实践过程也需要遵循科学的方法。图1-1是以科学方法为核心的数据科学流程图,它展示了一个典型的科学研究的演绎过程:一项科学研究始于对现实现象以及前人研究的观察和思考,通过思考定义问题之后,需要对问题产生的原因形成假设,为了验证假设,科学人员需要设计缜密的试实验,其中就需要尽可能多地采集相关数据并进行分析,根据结果不断对现有的假设进行重定义、更正、扩展,甚至推翻(重新假设),最后总结出具有实践意义的理论。
图1-1 数据科学流程图
总结一下,数据科学的工作流程一般如下。
1.定义问题。
2.获取训练和测试数据。
3.数据准备、清洗。
4.分析,识别模式,探索数据。
5.建立模型,预测问题,解决问题。
6.形成可视化报告,呈现问题解决步骤,找到解决方案。
7.提供或提交结果。
1.1.4 交付成果
数据科学主要针对数据问题以及被数据化的现实问题进行研究,因此数据科学的交付成果,也可以归纳成为有数据科学特质的成果。下面列举了一些常见的数据科学的交付成果。
基于输入的值输出预测结果。
分类(如判断是否是垃圾邮件)。
推荐(如Amazon的商品推荐系统)。
模式检测和分组(如聚类)。
异常检测(如欺诈检测)。
识别(如人脸识别)。
可实施的见解(如仪表板、报告等可视化工具)。
自动化流程和决策(如信用卡核准)。
评分和排名(如FICO评分)。
分群(如基于人口统计进行的营销)。
优化(如风险管理)。
预测(如销售和收入)。
可以发现,这些成果都旨在解决一个特定的问题。另外,数据科学交付成果最大的价值,其实体现在处理问题的思维和方式上,而践行这样的思维和方式的,正是在数据科学领域发挥着聪明才智的人,他们被称为“数据科学家”。