2.3.2 数据仓库需求业务描述

1.数据仓库分层建模

数据仓库被分为5层,如图2-4所示,详细描述如下。

• 原始数据层(Operation Data Store,ODS):用来存放原始数据,直接装载原始日志,数据保持原貌不做处理。

• 明细数据层(Data Warehouse Detail,DWD):基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最细粒度的操作记录。

• 公共维度层(Dimension,DIM):基于维度建模理论进行构建,存放维度模型中的维度表,保存一致性维度信息。

• 汇总数据层(Data Warehouse Summary,DWS):基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。

• 数据应用层(Application Data Service,ADS):也有人将这层称为App层、DAL层、DM层等。面向实际的数据需求,以DWD层、DWS层的数据为基础,组成各种统计报表,统计结果最终被同步到关系数据库(如MySQL)中,以供BI应用系统查询使用。

图2-4 数据仓库分层结构

2.需求实现

电商业务发展日益成熟,如果运营人员缺少精细化运营的意识和数据驱动的经验,那么业务发展将会陷入瓶颈。作为电商数据分析的重要工具——数据仓库,其作用就是为运营人员和决策团队提供关键指标的分析数据。电商平台的数据分析主要关注五大关键数据指标,包括活跃用户量、转化、留存、复购、GMV,以及三大关键思路,包括商品运营、用户运营和产品运营。本数据仓库项目要实现的主要需求如下。

(1)流量主题。

• 最近1/7/30日,各渠道访客数、会话平均停留时长、会话平均浏览页面数、总会话数、跳出率。

• 最近1/7/30日,用户访问浏览路径分析。

(2)用户主题。

• 最近1/7/30日,新增用户数、活跃用户数。

• 最近1/7/30日,新增下单人数、新增支付人数。

• 最近1日,流失用户数、回流用户数。

• 最近1/7/30日,用户行为漏斗分析。

• 每日的1至7日用户留存率。

(3)商品主题。

• 最近1/7/30日,各品牌商品的订单数、下单人数、退单数、退单人数。

• 最近1/7/30日,各分类商品的订单数、下单人数、退单数、退单人数。

• 最近7/30日,各品牌复购率。

• 最近1/7/30日,各分类商品购物车存量Top10。

(4)交易主题。

• 最近1/7/30日,订单总额、订单数、下单人数、退单数、退单人数。

• 最近1/7/30日,全国各省份的订单数和订单金额。

(5)优惠券主题。

各优惠券补贴率。

(6)活动主题。

各活动补贴率。

要求将全部需求实现的结果数据存储在ADS层中,并且编写可用于工作调度的脚本,实现任务自动调度。