1.1 大数据技术

当前,大数据技术在各个领域中受到高度关注,成为包括计算机科学和统计学在内的多个领域的新研究方向。在不同领域中,对于大数据的研究有较多的重叠,比如在计算机专业中涉及的机器学习算法模型,在统计学专业中被称为统计分析建模技术。另外,一些商学院也引入了一些与数据科学和管理决策相关的课程,让商学院的学生进行更多的数据科学决策思维训练。

同时,在大数据研究中也存在一些误区,如片面追求数据规模、过于强调计算系统架构和算法、过度依赖分析工具、忽视数据的应用、混淆数据科学与大数据的定义等。下面简要介绍一下大数据的应用,以及数据科学在企业中的应用。

1.1.1 大数据的发展趋势

提到大数据,不同的人有不同的理解和看法。下面介绍一下大数据技术的发展史。

在大数据开始流行之前,企业中的数据应用普遍处于BI(Business Intelligence,商务智能)阶段,更多的企业是通过整合内部系统数据来解决企业的一些报表需求、实时分析需求的。后来,随着互联网中文本、音频、视频等数据的增加,传统结构化数据处理方式受到进一步的挑战。

以大数据处理能力著称的Hadoop 生态体系及其技术的完善发展,给非结构化数据的处理,以及海量的数据处理带来了福音。更多的互联网公司首先倾向于搭建开源的Hadoop系统,进行数据的存储、处理、分析。紧接着,像银行等一些大型传统企业也逐步引入Hadoop进行数据的存储与分析,一时间,Hadoop成了大数据技术的代名词。

1.1.2 大数据处理的基础

Hadoop因为能够处理更广泛的数据,处理速度更快而被企业应用于数据存储、计算与处理。

图1-1中展示了Hadoop的整个生态体系,其中包括很多组件,这些组件分别被应用于数据的工作流处理,数据的传输、清洗、存储,数据流工作任务的调度、管理以及查询等。在具体的大数据项目实践中,企业会根据具体的需求,采用相应的组件。

图1-1 Hadoop生态体系

在具体的大数据项目中,主要会用到该生态体系下的下列技术。

HDFS(Hadoop分布式文件系统):用于存储数据。

Sqoop、Flume和Kafka:用于进行数据工作流处理。

MapReduce和Hive/Pig:基于Hadoop做批量处理及计算。

1.1.3 企业中常见的大数据产品

企业在进行IT技术选型的时候,都希望将一些成熟的商用技术,用于快速搭建企业的大数据平台,此时可以使用一些相对成熟的大数据产品(相对成熟的大数据产品有比较专业的技术服务),例如Cloudera、Hortonworks(目前这两家公司合并了)等的产品。

Hortonworks是一家大数据公司,提供了集大数据存储计算相关组件为一体的功能,帮助企业搭建基础数据存储、处理及管理平台。

企业有了数据存储、处理的新平台后,如何利用好这些平台上的数据呢?这就涉及数据科学了。接下来我们主要介绍什么是数据科学、大数据分析的原理及数据在企业中有哪些应用方向。