1.3 学前导读

在开始学习之前,希望读者仔细阅读以下内容,便于打开大数据学习之门。

1.3.1 学习的基础要求

在学习本书之前,读者需要提前了解一些基础知识,有助于更加轻松、快速地掌握大数据的相关内容,在后续项目的搭建过程中能更加得心应手,为深入学习大数据打下坚实的基础。

首先,学习大数据技术,读者一定要掌握一个操作大数据技术的利器,这个利器就是一门编程语言,如Java、Scala、Python、R等。本书以Java为基础进行编写,所以学习本书需要读者具备一定的Java基础知识和Java编程经验。

其次,读者还需要掌握一些数据库知识,如MySQL、Oracle等,并熟练使用SQL,本书将出现大量的SQL操作。

最后,读者还需要掌握一门操作系统技术,即在服务器领域占主导地位的Linux,只要能够熟练使用Linux的常用系统命令、文件操作命令和一些基本的Linux Shell编程即可。大数据系统需要处理业务系统服务器产生的海量日志数据信息,这些数据通常存储在服务器端,各大互联网公司常用的操作系统是在实际工作中安全性和稳定性很高的Linux或者UNIX。大数据生态圈的各框架组件也普遍运行在Linux上。

如果读者不具备上述基础知识,可以关注尚硅谷教育公众号获取学习资料,读者可根据自身需要选择相应课程进行学习。本书所讲解的项目同时提供了视频课程资料,包括尚硅谷大数据的各种学习视频,读者可在尚硅谷教育公众号回复“数仓项目”免费获取。

1.3.2 你将学到什么

本书将带领读者完成一个完整的数据仓库搭建及需求实现项目,大致可以划分为3部分:数据仓库概论及项目需求描述、项目框架搭建和项目需求实现。

在项目需求及框架讲解部分,读者可以全面了解一个数据仓库项目的具体需求,以及根据需求如何完成框架选型的过程。

在项目框架搭建部分,读者将跟随本书从操作系统开始,一步步搭建自己的虚拟机系统,了解各框架的基本知识,完成各框架的基本配置,最终形成一个可以正常运行的大数据虚拟机系统。

在项目需求实现部分,本书将从用户行为数据采集模块、业务数据采集模块、数据仓库搭建模块、即席查询模块、元数据管理模块5个方面对需求进行实现,读者通过本部分的学习将会了解一个完整的数据仓库系统从数据源到数据的最终展示是如何实现的,同时还能学到数据仓库相关的理论知识,掌握Hive、Sqoop、Flume等日志数据采集工具的工作原理及应用方法。本部分对电商数据仓库的常见实战指标及难点实战指标进行了透彻讲解,具体指标包括每日、每周、每月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计等。

通过对数据仓库系统的学习,读者能够对数据仓库项目建立起清晰、明确的概念,系统、全面地掌握各项数据仓库项目技术,轻松应对各种数据仓库的难题。