前言

随着技术的发展,数据的产生、传输和存储变得越来越容易。人类社会产生的信息也越来越多地被数据化。这些海量、详尽的数据让人们可以更客观、全面地探索和研究世界。数据已经成为一种重要的生产要素。大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集被称为大数据,大数据有海量的数据(Volume)、快速的数据处理(Velocity)、多样的数据类型(Variety)和低价值密度(Value)四大特征,统称“4V”。大数据蕴藏着巨大的价值,对大数据的运用和价值挖掘会给社会和企业带来新的机遇和变革。

本书主要内容

第1章 大数据概述

人类社会产生的数据与日俱增,涉及社会的方方面面。数据已经成为一种重要的生产要素,这些海量的数据被称为“大数据”。大数据蕴藏着巨大的价值,对大数据的运用和价值挖掘会给社会和企业带来新的机遇和变革。本章讲述了大数据的基本概念、关键技术及其产业模式。

第2章 Hadoop大数据处理平台

目前大数据标准开源软件为Hadoop。Hadoop是Apache基金会开发的分布式计算平台。它可以在大规模计算机集群中提供海量数据的处理能力。由于其良好的性能,Hadoop大数据处理平台在大数据企业中应用广泛。本章对Hadoop大数据处理平台做了详细介绍。

第3章 大数据存储技术(HDFS)

Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop的两大核心之一。它是使用Java实现的、分布式的、可横向扩展的分布式文件系统,是对谷歌分布式文件系统(Google File System,GFS)的开源实现。本章对HDFS做了详细介绍。

第4章 大数据离线计算框架(MapReduce&YARN)

Hadoop另一个核心组件是MapReduce。Hadoop MapReduce能在由大量的普通配置的计算机组成的集群上处理超大数据集,具有易于编程、扩展性高和容错性高的特点。

除了两大核心HDFS和MapReduce之外,Hadoop还有其他组件为其提供丰富的功能。

Hadoop中的资源管理调度系统被称为YARN(Yet Another Resource Negotiator,另一种资源协调者)。它是一个通用的资源管理模块,可以为上层应用提供统一的资源管理和调度。本书第4章对MapReduce和YARN做了详细介绍。

第5章 大数据数据库(HBase)

Hadoop中除了基本的文件系统,还提供数据库和数据仓库,方便用户对数据进行处理。

Hadoop中使用的数据库为HBase。HBase是基于谷歌Bigtable开发的开源分布式数据库,具有高可靠、高性能、高伸缩、面向列等特点。HBase运行在HDFS上。它主要用来存储非结构化和半结构化数据。第5章对HBase做了详细介绍。

第6章 大数据数据仓库(Hive)

Hive是基于Hadoop的数据仓库软件。它可以用来进行数据提取转化加载(ETL),在Hadoop中存储、查询和分析大规模数据。本书第6章对Hive做了详细介绍。

第7章 大数据数据转换(Sqoop与Loader)

为了方便外界存储与Hadoop平台之间的数据传输,Hadoop提供了高效传输批量数据的工具Sqoop。Sqoop可用于将数据从外部结构化数据存储导入Hadoop平台;也可用于从Hadoop中提取数据,并将其导出到外部结构化数据存储。本章对Sqoop做了详细介绍。

第8章 大数据日志处理(Flume)

此外,Hadoop还提供组件做日志收集处理。Flume是一个分布式、高可靠和高可用的海量日志聚合系统。它支持从多种数据源收集数据,在对数据进行简单处理后,将数据写到数据接收方(可定制)。本章对Flume做了详细介绍。

第9章 大数据实时计算框架(Spark)

Spark在2009年诞生于UC Berkeley AMP Lab(加州大学伯克利分校的AMP实验室),是使用内存计算的开源大数据并行计算框架。它提供了强大的技术栈,可以应对复杂的大数据处理场景,包括SQL查询、机器学习、图形计算和流式计算等方面。第9章对Spark做了详细介绍。

第10章 大数据流计算

Hadoop可通过Spark和Storm进行流计算。流计算是一种由事件触发、持续作用、低延迟的计算方式。它可以很好地对流数据进行实时分析处理,捕捉到可能有用的信息。本书第10章对流计算做了详细介绍。

第11章 数据可视化

为了更直观地展示大数据的分析处理结果,我们还需要使用数据可视化技术。常见的数据可视化工具有Excel、R语言、Tableau和QlikView。这部分内容会在第11章中做详细介绍。

第12章 大数据行业应用

目前,大数据技术在金融、医疗、制造业、能源、互联网、政府公共事业、媒体、零售等领域已经得到了广泛的应用,在社会以及企业的发展上起到了重要的作用。本书第12章介绍了大数据在金融行业、电信行业、公安系统以及互联网行业的应用案例,以便读者对大数据的应用现状有更直观的了解。

配套资源

华为ICT学院为本书从理论到实战提供了贴合实际应用的定制化教学学习资源,成为华为ICT学院之后即可获取使用如下配套资源。

·实验手册:教材配套实验材料,助力读者动手能力的提升,以实验促进读者对理论知识的理解。

·视频讲解:教材配套重点知识讲解小视频,帮助读者更好地理解书中的重点、难点,相关视频可到华为ICT学院官方网站进行观看。

·授课PPT:教材配套授课材料,方便高校授课,提升教师备课效率。

·综合实训:教材配套实训课程,还原真实项目,提升读者应对实际项目的能力。

关于本书读者

本书定位是华为ICT学院大数据技术官方教材,本书适合以下几类读者。

·华为ICT学院的学生。

·各大高校ICT专业领域学生。

·正在学习HCNA-Big Data课程的学员和正在备考HCNA-Big Data认证的考生。

·有志于进入ICT行业的初学者。

·大数据技术爱好者。

本书作者

编著:黄史浩

编委人员(排名不分先后):林业灿、钱兴会、张文博、张粤磊

技术审校(排名不分先后):高冬冬、贾云涛、刘洁、刘洋、鄢华、张博、张亮、张志峰、傅开宏、鲁戈