2.如何实现面向服务共享的大数据应用平台

如何实现面向服务共享的大数据应用平台?

先给大家分享我们服务的两个数据服务共享平台案例,一个是政务领域,一个是保险领域。

我们先看政务领域的例子,这个与大家的日常生活相对比较紧密:

目前各地方政府都在大力推进“一网通办”,一网受理,只跑一次,一次办成;需要打通各部委之间的数据,让数据多跑路让群众少跑腿。

场景1:一寸、两寸、45cm×45cm、蓝底、白底、红底……不同证件、申请表格,照片规格五花八门,每次照一张?想想都头大。

只要在政府部门拍过照片,就可以按需得到多种尺寸、背景的标准照片。

市民到政府办事有280+个事项需要提供个人照片,将其在政府留存的照片数据归集到他的个人档案中,再办事情就可以直接调用。

看是一个非常简单的功能,在政务领域打通需要涉及几十个系统交互才可以。

场景2:想开饭店?要办理营业执照、食品经营许可、消防检查、酒类零售、环评备案……跑五六个部门,提交31份材料,接受3个部门的现场核查。跑6次办事窗口,核查要3次,等审批要58天。

现在所需材料只要12份,减少61.3%,核查只要1次,审批时间缩短82.8%,10天,只跑一次窗口,就回家等好消息吧。

原来:每个政务部门都有自己的信息系统,如果不打通,就使得企业向A部门提交的材料,到B部门要再提交一次。公民的户籍、教育、就业、医疗、婚姻等基本信息,也处在分散的状态,给群众办事带来麻烦。

现在:正是由于打通了政府的各个部门的数据、外部的政务数据以及来自社会的非政务数据,形成政务领域的四大库:人口库、法人库、空间地理库、电子证照库。

才能做到让数据多跑路让群众少跑腿,为自然人、法人、企业提供透明优质的公共服务。

因此,我们在政务数据服务应用平台中,探索建立了以目录为核心的数据资源管理新模式。

数据不等同于数据资产,数据资产是唯一的能为业务产生价值的数据,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。

对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,按照分类、主题、应用等多个维度对数据目录进行分类管理、识别、定位和共享。

通过政务信息资源目录帮助大数据中心建立跨委办局全市统一的数据资源管理体系,与国家级以及区县级数据资源平台对接。

既然提到了数据安全,我们必须要面对与解决。

在政务领域,不同的数据归属不同的部门管理,对于数据的获取需要审批和授权。基于此,我们提出了“三清单”为抓手,建立需求清单、责任清单、负面清单进行管理与维护。使得数据在安全的前提下让数据流动起来,只有流动的数据才会产生价值,创造效益。

以三清单为抓手进行数据价值融合;通过一套完整的线下线上流程,将数据安全的开放出来。

• 需求清单:根据业务应用场景,由需求方提出需求清单,描述需要获取的业务数据

• 责任清单:根据需求清单定义的数据,定位分别由哪些部门管理,然后委派给不同的责任部门提供需求清单需要的数据,由不同的部委对提供的数据进行责任管理

• 负面清单:根据数据的部门来源,及法律法规,对无法提供的数据进行管理;避免出现泄密等情况

对于被三清单审批过的数据资源目录,可以安全的发布到共享交换平台;最终实现了数据协同、自助数据、数据服务化、数据工作台的能力。

这是保险业的一个情况,保险业,应该说属于轻资产的行业,他们面临的问题主要来自于自身发展导致的:

根据保险行业发展趋势,目前保险交易已经呈现高频化、碎片化、场景化等特点,对系统的处理能力、容量、业务连续性、需求响应速度、运维响应速度提出了更高的要求。

但在保险行业,往往一个险种就是一个分子公司,分子公司会独立的建立自己的客户,自己的渠道以及所有围绕服务的资源,大家可以看这个胶片,左边的业务应用(渠道),明显各自是独立的,各自有自己的官网、app等等。

独立发展到今天,他们碰到的问题是,共享与融合发展的问题,例如:某客是产险的客户,他可能也会是健康险的客户,或者过3年后他就是健康险的客户,但独立经营的现状是没法很好的是做这方面的融合的。造成非常差的客户体验。

因此我们帮助企业的第一步工作就是理解客户,可以看到针对不同的险种、不同的分/子公司都有个人的、家庭的、团体的客户等等,对他们的所有关联信息(包括基本信息、保单信息、投保信息、理赔信息)搞清楚,最后建立基于集团级别的客户标准模型,并做渠道上的整合。

为集团的多端系统提供统一的客户数据供数,优化客户数据供给;为服务、行销、决策、风控提供依据。

那么,在建立一个标准的、实时共享的保险业大数据平台时,它的逻辑也非常简单。对它来讲,需要了解自身到底有多少资产,要能条目化、目录化;可以通过平台做自助式开发;针对这些服务怎么运营和监控;以及服务消费。其实这四方面一点也不复杂,复杂的是自己的业务本身。

针对上面两个案例的分享,我们总结一下,为了提升数据的业务价值,我们需要:

• 数据目录化:核心是数据的资产化,通过将源数据、前置区、共享区的数据通过,Metadata api抽取,形成数据目录,挖掘有价值的数据形成资产

• 目录服务化:形成Data api,将前置区、共享区的数据,通过数据服务装配/开发,形成具体的服务,可以是实时数据服务、批量数据服务

• 服务开放化:形成Service API,通过数据服务申请、审批,数据服务运维监控,将数据服务的能力开放给业务部门,合作patener

整个服务化的流程相对比较清晰,主要分为数据服务提供者,数据服务消费者:

• 数据服务提供者:完成数据接入,服务管理,消费方管理、运行监控能力

• 数据服务消费者:通过服务申请来完成对服务的消费使用;并提供权限范围内的数据浏览与查看

数据目录化主要由两部分组成:

• 元数据自动采集:基于元数据驱动支持在数据源、前置区、共享区、消费方四个区域配置数据库资源,实现数据库资源自动采集、预览,为后续数据服务化与数据共享打下基础。

• 数据分类管理:将数据资产按照分类、主题、应用等多个层次对数据进行分类管理、识别、定位和共享。

通过元数据驱动来实现数据目录化,最终实现了让用数据的人知道可以提供什么数据。

目录服务化:最核心的是支持将数据一键/便携化发布为API服务,降低服务的开发成本;支持结构化数据、非结构化数据、文件数据的共享发布;支持单表、结果集等形式的实时接口服务发布;支持批量数据发布;支持发布订阅等多种模式。

关于服务化的形式,有些人认为只有封装成API才算是,我觉得不是,因为数据跟功能不同,其分析的灵活性和数据维度的无限性决定了你不可能封装出所有的数据服务,因此这里的服务应该是广义的服务,只要我提供的数据能够被共享使用,在前端被业务人员或者其他机器快速方便的使用或调用,这就是数据的服务化。

服务开放化完成统一运营企业数据的顶层设计,包括:

• 统一的数据共享通道:建立公司统一的纵向数据共享通道,提供跨系统、跨单位、跨区域的数据集成、交换、分发、共享机制。

• 统一的数据交换标准:定义统一的交换标准和规范,并在实施过程中,积累更多符合自身发展的、可复制的最佳实践。

• 统一调度管理:提供灵活的、多角度的模型作业调度机制,减轻运维管理工作量,实现运维自动化。

• 统一的数据运行监控和安全保障体系:提供数据服务发布、访问授权和运行监控的统一管理;从技术和管理两方面提供事前预防、事中控制和事后追溯能力。

最终帮助企业实现了数据资产的全景视角,并实现了全数据链路的跟踪;可以从多视角,比如,数据来源,资源分布,资源使用等维度来查看;对发布共享的数据资产,可以进行适当的排名,进而激励更多的数据产生价值。

借助于血缘分析、影响分析等来实现自助式数据问题跟踪:

• 消费方在应用过程中,发现数据问题

• 消费方通过平台对实体进行血缘分析,发现与其相关的上游数据

• 通过血缘分析定位可能的问题路径,分析并解决相关数据问题