3.面向服务共享大数据应用平台核心架构

整个平台的架构相对比较清晰,包括数据服务目录、数据服务开发、数据服务调度、数据服务共享与发布、数据服务的治理。

整个平台的应用架构,从数据的维度来切分:

• 资源层:平台需要处理和对接的各种数据资源,可以来自关系数据库,HBASEHiveSolar、文件等;

• 开发层:元数据的采集及数据的采集、处理、开发等;

• 数据管理层:是平台的核心,实现资产目录的管理、数据服务的发布、数据质量的稽核能力;

• 进而支持数据的应用层,各种维度的数据应用:数据接口应用、数据分析应用、业务分析应用、数据加工应用、数据预测应用等。

最后给大家分享平台建设的4个重点:

1)建立端到端的服务开发;

2)实现API的服务化;

3)全方位,事前、事中、事后的数据质量体系;

4)寻求云原生的支持。

整个平台需要考虑从消费方到提供方整个闭环的管理机制;建立从需求、设计、开发、发布的闭环管理。

服务的发布一定要支持到服务的API化,技术实现可以采用微服务架构的形式,对外提供标准化的Restful风格服务,便于生态的打通。

建立事前、事中、事后完整的数据质量检核体系,把控数据工厂的数据质量;也可以定期的进行数据的专项治理工作,提升平台的整体质量;建议从数据的开发期就关注质量,尽量避免边污染边治理的模式;比如:

• 事前:主外键、时间戳字段、数据类型……

• 事中:非空、重复记录……

• 事后:及时性、一致性……

最后,需要考虑云原生的基础设施支撑。基础设施采用容器、容器编排工具;服务开发的技术架构建议采用微服务(Spring Cloud)、Mesh;工程效率采用DevOps,实现数据类应用的自动化CICD能力,以及环境类的自动准备。