- 大数据分析:数据仓库项目实战
- 尚硅谷IT教育编著
- 741字
- 2021-01-05 18:09:51
前言
大数据发展至今,早已不是一个新兴词语,大数据的应用已经无处不在。在大数据时代,我们面临的不仅是海量的数据,更重要的是海量数据所带来的数据的采集、存储、处理等方方面面的问题。为了更快速、更全面地展示大数据的实践应用,本书以一个数据仓库项目为切入点,带领读者一步步揭开大数据的面纱。
数据仓库项目是学习大数据的重要基石。本书以数据仓库的搭建为主线,从搭建之初的框架选型、数据服务的整体策划到数据的流向,数据的采集、存储和计算,循序渐进,一步步地展开,进行细致剖析。在对数据传输过程的讲解中,穿插了数据仓库的相关理论知识及大数据关键框架组件的讲解,务求让读者对大数据有更深刻的理解,更加全面地了解大数据生态体系。
本书共9章,包括大数据与数据仓库概论、项目需求描述、项目部署的环境准备、用户行为数据采集模块、业务数据采集模块、数据仓库搭建模块、数据可视化模块、即席查询模块、元数据管理模块。
本项目采用主流的数据仓库建模方式(确定业务过程、声明粒度、确定维度、确实事实),覆盖当前主流框架——采集,Flume/Kafka/Sqoop;存储,MySQL/Hadoop/HBase;计算,Hive/Tez;查询,Presto/Druid/Kylin;可视化,Superset;任务调度,Azkaban;元数据管理,Atlas;脚本,Shell。
整套项目包含业务指标近100个、Shell脚本40多个、用户行为原始表11张,业务原始表24张、数据仓库总表近100张……
阅读本书要求读者具有一定的编程基础,至少掌握一门编程语言(如Java)及SQL查询语言。读者若不具备此项条件,则可以关注“尚硅谷教育”公众号(微信号:atguigu),在聊天窗口发送关键字“大数据”,即可获取尚硅谷大数据学科全套视频教程及学习路线图;发送关键字“数仓项目”,则可获取本书相关学习资料,包括2760分钟配套视频及全部的源码、脚本、课件、软件包等。
感谢电子工业出版社的李冰编辑在本书编写过程中给予的指导与支持。
尚硅谷IT教育