专访明略数据技术合伙人孟嘉:SCOPA架构升级下的实践与优化
随着“数据爆炸”时代的来临,数据挖掘成为一项重点工作,针对海量,混杂的大数据而非少量、随机化、样本化的精准数据,其关键是找到并建立不同数据间的相关性,并对其进行模式分析。
数据挖掘在明略数据构建的数据生态中处于极其重要的一环,为最大程度发掘数据中所隐含的关系、知识和规律,明略数据成立了科学家团队,不断打磨在人工智能、深度学习等领域的经验,同时它也组建了自己的GPU集群,以发挥其天生的计算优势,加快对深度学习平台的训练速度。在一些深度学习最新算法应用上,明略数据也具有较为领先的创新。
为更好的了解明略技术背后的原理和机制,我们专访了明略数据技术合伙人孟嘉,跟他聊聊数据关联分析产品SCOPA的技术应用、架构演进及其对知识图谱和图数据库相关技术的一些思考。
SCOPA2.0架构演进背后的技术突破
今年,明略对SCOPA 2.0做了一次大规模的架构升级,目的是拓展SCOPA的平台化战略。具体内容包括三方面。
一是为向平台化方向发展,开放了API和插件体系。这样,SCOPA项目团队成员以及合作伙伴都可以基于SCOPA快速开发和部署新的应用或功能。
二是在数据存储方面,把存储层抽取成一个独立的数据库,或者说,开发了一个面向知识图谱存储的独立NoSQL产品。SCOPA底层存储的是一张巨大的知识网络(知识图谱),这样的独立数据库可为二次开发的人员提供独立使用并调试的可能,同时还可让开发过程直接以插件的形式接入到SCOPA的整体平台中。
三是在数据整合方面,SCOPA 2.0已统一对非结构化数据和结构化数据的视图描述规范,提升了知识构建到存储的效率。之前明略数据的很多任务都是靠人工或者是半自动化的形式处理,这就好比是由几百甚至上千个离线任务组成的复杂的系统,互不相干的任务并不能并发执行。例如,在进行知识抽取的过程中只有先抽取实体,才能抽取到实体之间的关系。这样,面对任务多、串行时间太长等问题,SCOPA 2.0加入基于DAG的任务调度系统,轻量级任务调度系统可以把抽取实体关系执行条件组织成一张有向无环图(DAG),将离线和在线任务紧密结合在一起,同时还支持一部分任务重试、错误的监控,从而能极大提升SCOPA后端的整体效率。