前言

数据仓库一直是大数据领域不可逾越的概念。每分每秒,全世界的各个地方都在生成不计其数的数据。这些数据生成出来,不被处理的时候就像一堆砖瓦沙石,占用空间且没有任何价值。想要从数据中提取出价值,就必须对数据进行抽取、组织、分析、展示,将无序的砖瓦沙石组织构建成高楼大厦。

数据仓库就是对无序海量数据进行组织构建后的产物。

尚硅谷教育出版的《大数据分析——数据仓库项目实战》一书带领读者搭建了一个小有规模的数据仓库。通过搭建数据仓库,我们掌握了服务器的搭建和配置、众多大数据组件工具的使用、海量数据的采集分析和展示等知识。更重要的是,我们知道了若想启动一个项目,要经过需求分析、架构设计、需求实现、结果展示等流程。但是读者也深知,技术的发展是何其迅速,一本讲数据仓库的书并不能道尽所有相关知识和技术。所以在深入了解数据仓库相关技术的发展现状、多方调研数据仓库的理论知识之后,我们的教研团队将《大数据分析——数据仓库项目实战》全面升级,编写了这本《剑指大数据——企业级数据仓库项目实战(电商版)》。

本书全面升级了数据仓库的指标体系,根据现有更新、更流行的技术栈升级了数据仓库的总体架构,深入讲解了现有的数据仓库理论体系,增加了数据治理环节。以上的种种升级,我们都进行了反复调研和测试,力求用理论指导实践,技术框架不落人后,需求实现经得起推敲。

永远追求更适合、关注度更高的技术是我们教研团队的准则。在本书中,我们重新调整了数据仓库的整体架构,应用了更新版本的数据采集工具和数据治理工具等。大数据发展至今,各种技术框架层出不穷,当读者需要使用某一个新框架时,常常会面临如何选择版本、功能都有哪些、与现有框架是否兼容、如何安装调试等问题。本书选用的所有技术框架均经过了教研团队的充分调研,为数据仓库项目配备了一整套数据治理解决方案。这些框架的兼容性已经得到验证,并且本书给出了详尽的安装配置过程,读者可以放心使用。技术的发展是永无止境的,我们也永远不会停下研究新技术、新知识的脚步。

相信每位读者在想深入了解数据仓库的理论体系时,都会感觉到,各家理论各擅胜场,可谓百家争鸣,那么读者该如何选择合适的理论知识指导自己的数据仓库项目的建设呢?理论没有最好的,只有最合适的。在正式开始数据仓库架构的搭建之前,本书完整讲解了一套适用本电商数据仓库项目的理论体系。在理论体系中,有重点概念的讲解,辅以恰当的案例图片,并最终给出根据该理论体系搭建数据仓库的完整步骤。

本书共14章,其中,第1~3章是项目的前期准备阶段,主要介绍了数据仓库的概念和演进过程、本数据仓库项目将要实现的搭建需求,并初步搭建了本数据仓库项目所需的基本环境;第4~7章是项目的核心部分,重点讲解了数据仓库的建模理论,并完成了数据从采集到分层搭建的全过程;第8~14章是对数据治理各功能模块的实现,包括即席查询、集群监控、安全认证、权限管理等,并对众多的大数据框架进行了讲解,读者可以通过本部分内容查阅实现数据治理的不同功能的经典框架。

阅读本书要求读者具备一定的编程基础,至少掌握一门编程语言(如Java)和SQL查询语言。如果读者对大数据的基本框架(如Hadoop、Hive等)有一定了解,那么学习本书将事半功倍。读者如果不具备以上条件,则可以关注“尚硅谷教育”公众号,免费获取相关学习资料。

本书涉及的所有安装包、源码及视频课程资料,均可以通过关注“尚硅谷教育”公众号,回复“电商数仓”关键字免费获取。

感谢电子工业出版社的李冰编辑在本书编写过程中给予的指导,也感谢所有为本书的编写提供技术支持的老师。

关于我们

尚硅谷是一家专业的IT教育培训机构,现拥有北京、深圳、上海、武汉、西安5处分校,开设Java EE、大数据、HTML5前端、UI/UE设计等多门课程,累计发布的视频教程超3000小时,广受赞誉,通过面授课程、视频分享、在线学习、直播课堂、图书出版等多种方式,满足了编程爱好者对多样化学习场景的需求。

尚硅谷一直坚持“技术为王”的发展理念,设有独立的研究院,与多家互联网大型企业的研发团队保持技术交流,保障教学内容始终基于研发一线,坚持聘用名校名企的技术专家进行技术讲解。

希望通过我们的努力,帮助更多需要帮助的人,让天下没有难学的技术,为中国的软件人才培养尽一点绵薄之力。

尚硅谷教育