2.1 数据采集类似于商品进货

数据采集是利用数据中台的相关技术手段收集、获取和对接企业内外部事务、人员、机器设备等各类数据的过程。若用超市大卖场类比数据中台,则数据采集相当于超市的商品进货业务,如图2.1所示。

图2.1 数据采集类似于商品进货

2.1.1 数据按结构分类

在数据采集环节,大家通常会从结构和时效性上对数据进行分类和描述。数据中台所采集的数据按结构可以划分为结构化数据、半结构化数据和非结构化数据,相当于超市按包装方式将商品分为全包装商品、半包装商品、散装商品。

1.结构化数据

结构化数据是可以通过二维表结构逻辑表达和实现的数据,遵守数据的格式和长度规范,如Greenplum、ClickHouse、Hive、MySQL、SQL Server、Oracle等数据库一般保存的都是结构化数据。这类数据可以类比为超市中的全包装商品,其数量明确、标志清晰、便于运输。比如一箱牛奶、一盒巧克力,完整的包装使得顾客在选购与搬运时更为方便。

2.半结构化数据

半结构化数据与纯文本相比具有一定的结构,同时也比关系型数据库中的数据更灵活,如JSON、XML格式的数据及操作日志等。这类数据可以类比为超市中的半包装商品,其包装更简单、成本较低,便于拆分、重组。

3.非结构化数据

非结构化数据是不能通过二维表结构逻辑表达和实现的数据,如文本信息、图像信息、视频信息、声音信息。这类数据可以类比为超市中的散装商品,其无包装、可塑性强。比如谷物、生鲜,购买时需要称重。

2.1.2 数据按时效性分类

数据中台所采集的数据按时效性可以划分为实时数据、准实时数据、离线数据,相当于超市按时效性将商品分为流行性商品、季节性商品等。

1.实时数据

实时数据是在某事发生、发展过程中的同一时间中所得信息的载体,可以类比为超市未经加工的商品。与之类比的流行性商品,作为在一定时期为众多消费者所接受和使用的时尚商品,看重的是时效性,强调对实时需求动向的掌握。

2.准实时数据

准实时数据是指获取的有一定延迟的数据,这些数据可能存在着秒级别、分钟级别和不高于五分钟级别的延迟。准实时数据可以类比为超市的季节性商品,如农副产品、夏凉商品、冬令商品等,在生产、收购和销售上有显著季节性差别,需求也有一定时效性,从提前准备到实际销售有一定延迟。

3.离线数据

离线数据是指存储在数据仓库中的过去发生的业务数据。在分析时,不在生产系统中直接做数据处理,而是把生产系统中的数据导入另外一个专门的数据分析环境(数据仓库)中,与在生产系统脱离的情况下对数据进行计算和处理相比,这种分析方式不具有实时性。这类数据可以类比为超市的大众化商品,如柴米油盐、卫生用品、日用品等,人们对之有着稳定的长期需求,且需求量庞大,因此货架与仓库中都要常备此类商品。

2.1.3 理解数据中台的运作过程

数据中台的数据来自不同的数据源,包括信息系统、软件即服务(Software as a Service,SaaS)应用、互联网、物联网、第三方大数据系统等,相当于超市按渠道将商品分为统一采购的商品、供应商直送的商品、联营配货的商品。

数据的抽取、转换和装载(Extract,Transform,Load,ETL)过程,是将业务系统的数据经过抽取、转换清洗之后装载到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起形成数据资产,确保前端业务场景对数据的调用。这相当于超市商品进货、检验和分拣、入库和上架的过程。超市根据需求购进商品,按照自己的方式将商品登记入库,对质量、规格、重量、数量、包装、安全及卫生等方面进行检查,最终把符合要求的商品摆放在货架上,提供给消费者。

正如上面类比的超市商品进货业务一样,超市大卖场通过进货源源不断地为消费者供应商品,数据采集也是数据中台的第一个环节,为数据中台汇聚企业内外部的各种系统、各种类型和各种需要的数据,为数据中台的数据开发工作提供源源不断的数据。