3.1.2 数据中台

3.1.2.1 数据中台解读

数据中台是数字化转型时代的产物,当然也是在互联网发展的背景下催生出来的。数据中台要解决的一个核心问题是让一些业务数据化的同时,也让一切数据业务化,通过大数据的力量去指导企业的运营和决策。数据中台建设的核心还是数据仓库和数据中心,我们首先从大数据谈起。

什么是大数据?

随着互联网的不断发展,数据量越来越大,大数据已经成为当今信息时代的一个重要概念,几乎所有领域都在挖掘大数据带来的价值。

通俗来说,大数据是指那些数据量巨大、数据类型极其复杂的数据集合,这些数据无法用传统的数据库进行存储、管理和运算。这些数据本身很难被企业直接利用而产生价值,但是对这些数据进行分析、处理后,却能从中得到非常有价值的数据。

什么是数据挖掘?

数据挖掘是大数据分析的理论核心,其本质是依据数据处理模型建立的一组逻辑算法。

自从2009年大数据概念被提出,经过将近10年的发展和应用,现如今我们已经可以借助数据挖掘算法、分布式计算、预测分析能力、可视化分析等一系列的手段或方法,帮我们不断地挖掘数据的潜在价值。

什么是数据仓库?

数据仓库之父W.H.Inmon给出的定义是:数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。

传统的关系型数据库比较合适处理格式化的数据,是支撑企业业务系统的重要组成部分。稳定且不随时间而变化,而基于大数据的数据分析是随着时间而变化的。因此具备随时间变化特性的数据仓库,在大数据分析领域较传统数据库更加适合。得益于分布式存储的不断发展,目前作为大数据存储容器的方案应该有很多了。大家如果有兴趣的话可以去网上查看,我们就不在此展开了。

数据仓库是数据中台演变的一个重要过程。

什么是数据中台?

数据中台是由阿里率先提出的,现已成为大数据的热门概念之一。业务数据化,数据业务化则是阿里对大数据应用最好的诠释。而数据中台就是实践中的必然产物。

那么数据中台到底是什么呢?我们认为数据中台是利用数据技术对海量数据进行采集、过滤、筛选、存储、运算等加工的过程,并且在过程中对数据进行标准化,产生标准数据形成数据资产,最后将数据资产基于业务场景转化为数据服务,从而为数据使用者提供价值。

目前许多企业在数据应用的实践中,经常会遇到数据孤岛、数据资产维护混乱、数据价值利用低等情况。而数据中台的出现能有效地改善这些现状。通过数据中台的数据治理方案和实施方法论将数据统一之后,形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,而且也是差异化竞争优势所在。

通过数据中台建设,用户可显著降低基于企业数据仓库的数据应用开发周期,降低开发成本,还可大大降低数据仓库、数据处理、数据应用的运维成本。

3.1.2.2 数据中台构建企业数据生态

借用数据中台业务掌门人——朋新宇的一个例子来说明数据中台如何构建企业数据生态的。我们把数据中台比作一棵大树,“业务产生最初的数据,通过大树自身的系统,一步步变成果实、二氧化碳等等,又返还给土地、鸟、空气。这棵树,通过数据采集、计算,提供统一的服务中间件,最后应用到业务中。”数据来自于业务,反哺业务,并循环往复,蕴含更大能量,形成一个数据生态,而这个生态蕴含着无穷尽的可能性。这是今天阿里对于数据业务的认知。

数据生态

阿里在数据中台的实践中充分表明了对传统大数据仓库思维的变化。从刚开始的数据监测、报表统计,再到数据运营和分析,最终希望达到由数据驱动业务,再集合机器人学习人工智能等先进思想和技术,实现智能化数据应用。

数据中台在不同行业的应用场景

续表

从零散的数据到统一的数据

传统的系统架构中,因为系统分散,所以导致数据也分散在多个系统中,导致资源浪费,数据不准,实时性、精准性不高,对于数据的高效运营分析意义不大。另外,业务数据在业务系统中,社交数据在社交媒介中,交通信息在出行APP中,多维的数据之间并没有统一的标识,无法进行全域的、多维的,单一数据ID的分析。造成资源浪费,业务管理无序,所以各个数据表之间没有连接,数据应用的价值大打折扣。

在数据中台中,建立数据之间的统一标识,实现统一的数据ID管理运营理念。统一社交、娱乐、生活、交通、支付、金融等多态数据,通过数据整合,数据建模,形成统一的商品、会员、支付、营销等多维度数据的透出。

在数据的公共层,按照业务进行原始数据的抽取,在核心业务层进行数据的透出。统一的数据在整个数据应用层进行具体透出,实现百花齐放,快速响应。全盘地把握数据,实现数据资本到数据资产的转化。

从数据提供者到业务推动者

传统的系统架构中,因为系统分散,所以导致数据也分散在多个系统中,导致资源浪费,数据不准,实时性、精准性不高,对于数据的高效运营分析意义不大。另外,业务数据在业务系统中,社交数据在社交媒介中,交通信息在出行APP中,多维的数据之间并没有统一的标识,无法进行全域的、多维的,单一数据ID的分析。造成资源浪费,业务管理无序,所以各个数据表之间没有连接,数据应用的价值大打折扣。

在数据中台中,建议数据之间的统一标识,实现统一的数据ID管理运营理念。统一社交、娱乐、生活、交通、支付、金融等多态数据,通过数据整合,数据建模,形成统一的商品、会员、支付、营销等多维度数据的透出。

在数据的公共层,按照业务进行原始数据的抽取,在核心业务层进行数据的透出。统一的数据在整个数据应用层进行具体透出,实现百花齐放,快速响应。全盘的把握数据,实现数据资本到数据资产的转化。

3.1.2.3 数据中台技术框架剖析

数据中台从技术实现角度可分成:数据交换层、数据中间层、统一数据服务层。

数据交换层:它面向各个业务系统,负责业务数据的清洗、交换和加工。作为数据的准备区,为数据中台提供统一的数据接入,一般数据可分为离线数据和实时(准)数据。首先,在这层将提供数据同步功能,支持结构化数据的增量或者增量同步;其次,针对非结构化的数据提供结构转化功能,使之经过处理后成为结构化的数据并实现存储;最后,提供历史数据的积累和清洗,并根据数据业务的需求保存信息。

数据中间层:数据中间层进一步可分为数据存储与数据计算分析两部分。

数据存储

数据存储,包括ODS(贴源数据层)、DW(数据仓库)、DM(数据集市)。

数据计算分析

数据计算分析包括算法库、机器学习等计算组件;模型设计和olap数据分析;数据分析与探索挖掘引擎,以及基于维度建模的多维分析、交互式探索分析、机器学习、深度学习、可视化敏捷报表门户等功能,向用户提供强大的数据分析与数据挖掘能力,助力用户大数据的价值发现。

统一数据服务层:包括门户和数据资产管理,它支持个性化指标加工和机遇应用的数据组装。

数据中台架构蓝图

从业务角度中台又可以分为四层:数据开发、数据模型、数据服务及数据开发。

通过数据技术实现数据的有效性统一性,通过数据建模实现跨域数据整合以及知识沉淀,更好地利用数据资源,通过数据服务实现对于数据的封装和开放,快速、灵活地满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要,这是企业构建数据中台需要完成的事情。

数据开发

企业的业务一定会产生大量数据,储存在自己的数据中心、数据库中,不同的业务间还产生了口径不统一的数据形式。随着数据体量的增加,数据维护的成本非常高,而且数据调用非常困难,长期处于低效状态。因此,在数据中台里,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。

数据模型

对数据建模是为了更好地应用数据资源。基础模型主要为了实现数据的标准化;融合模型主要实现跨数据的整合,从而来汇总、关联、解析数据;挖掘模型是将常用的应用沉淀到企业中台,方便数据能力的调用。这些在数据模型中标准化、统一化的数据存储在中台体系内,能够形成庞大的数据资产,这些数据资产能够在后续的业务中不断被调用使用,提供高效服务支持。

数据服务

将数据模型按照应用要求进行服务封装后就形成了数据服务。数据封装的难度比业务中台的封装难度要高一些,因为数据分析的印象因素更多,市场变化快,导致封装难度变大。这种数据服务能够给品牌带来更多规模化的应用,尤其是业务复杂的情况下,更对数据服务能力有了更高的要求。

数据开发

仅仅有好的数据模型和数据服务是不够的。搭建企业中台不仅是解决传统痛点的,更是要面向未来,考虑企业未来发展的,这样数据中台就需要有开发能力,满足未来个性化的需求。最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,通常是面向业务人员,然后是提供数据开发平台,帮助可以基于该平台访问到所有的数据进行可视化开发,一般面向SQL开发人员,最后是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。

数据建模

3.1.2.4 实现企业智能数据驱动数字化平台

随着大数据的应用不断发展,企业监管机构及决策机构越来越认识到数据对于企业的重要性。因此企业对于智能化的全面数据治理的需求从未如此强烈。

数据治理在技术层面可以分为“被动的”和“主动的”,传统被动的数据治理基本源于业务部门对经营或生产需要,借助半自动化的数据工具实现的。这样的系统已经无法满足现如今企业高速发展的业务以及日益残酷的市场竞争需要。如今的企业需求要的是一整套完成的智能化、自动化数据治理平台。所以整合了商业智能(BI)与人工智能(AI)的数据中台产品,就成为了企业最佳的选择。

数据中台驱动业务数字化运营

我们以零售行业为例,新零售思想正在改变整个行业的思维与经营模式。现如今谁能更好地实现人、货、场的重塑,更快地搭建符合消费者预期的消费场景,更好地满足消费者的消费体验,无疑将会在新的一轮竞争中占得先机。要实现这些数据中台无疑是必需的。数据中台通过对商品、交易等公共数据,POS流水等垂直数据,建立全面、统一的数据模型。再利用数据挖掘,多维分析等数据加工手段不断为企业积累有价值的数据资产,提高数据部门的响应速度,提高工作效率。决策机构、监管部门、业务部门可以通过数据中台提供的各类数据服务,轻松得到来消费端、商品/供应链端、渠道端的数据分析与预测支持。帮助企业提高决策效率、提升决策正确率。

3.1.2.5 数据中台的展望

数据中台是企业大数据能力的体现。传统企业对数据的应用是匮乏的。企业对数据的认识更多地集中在数据仓库,各种系统数据整合到数据仓库,形成报表,各个关心业务的负责人或者运营人员将报表作为决策参考。

这样的方式正在被替代,因为数据报表能够提供给业务人员的信息是有限的,并且人的处理能力有限,通常只能关注到极少数的报表问题,而这个过程还牵涉到许多人力繁复的Excel表格工作。

数据中台则意味着商业智能(BI)+人工智能(AI)。业务时时刻刻都会产生数据,进入到数据中台,数据中台通过人工智能,将人的经验沉淀成算法将数据分析的工作交由机器完成。这个时候,数据中台构成强大的中心能力,实时地数据进入,实时分析出商品策略、营销策略等,同步给一线人员。而且这个过程是快速的,机器是不知疲倦的,能够处理上亿条信息。这种效率通过人工处理数据是无法做到的。

在大数据应用时代,数据分散导致数据能力难以复用,企业难以洞察全局业务,由此导致的运营体系缺失等问题逐步显现,使得新兴业务无法快速高效开展,传统业务难以实现数字化转型。数据中台体系恰是将统一数据规范、统一数据分析、统一数据服务,由此为企业带来统一的数据资产,这种统一的数据资产能够支持品牌的全局洞察,在各业务间统一服务,通过数据能力驱动运营。在业务中台与数据中台间建立协同作用,将业务数据沉淀至数据中台,用数据能力倒逼业务变革,通过数据驱动决策,推动极致的用户体验。因此可以相信数据中台的应用前景将是无限的。