特别专栏 | Column

通过Cloud Data Services打造新型认知计算数据分析云平台

作者 刘羽飞

在今年初IBM首席执行官Ginni Rometty公开表示将向认知计算与云计算平台方向转型之后,尽管外界一致认为这一过程并不会轻松,但经过近半年时间的努力,IBM确实已取得了一些进展,尤其是在中国国内,比如IBM重新整合了以新开发平台、云服务以及开源数据工具相结合的云数据服务体系,以及通过与世纪互联合作的方式实现了云数据库产品Cloudant的落地。那么在这些举措的背后,IBM的真正目标是什么?IBM转向云计算,又会对其用户以及整个行业带来哪些影响呢?为此InfoQ对IBM中国开发中心大数据及分析平台总经理吉燕勇进行了专访。

InfoQ:请先谈一谈您目前所负责的工作,以及之前的一些主要工作经历。

吉燕勇:在过去十几年当中,我一直在IBM中国开发中心工作,目前主要负责的工作是实现云上的大数据分析能力。IBM中国开发中心是1999年成立的,专门负责开发IBM自己的核心产品。

2004年之前,我主要负责电子商务及相关产品的开发工作。从2004年到2010年之间,在结构化数据方面,为了给国内众多银行用户提供更强的数据库方面的技术支持,我负责组建了IBM中国开发中心的数据库开发团队,另外在非结构化数据方面,企业内容管理开发团队同样也是我组建起来的。

到2011年的时候,因为IBM之前已经收购了SPSS、Cognos等公司,我又组建了业务分析团队,这样一来IBM中国开发中心大数据及分析平台的结构化数据团队、非结构化数据团队、以及分析团队就比较完整了。

近两年IBM的技术方向变化比较快,重点往认知计算、云平台方向发展。因此今年,我们就把负责云端开发的部门独立了出来,而我来负责所有大数据以及分析的云端开发工作。

另外因为市场对大数据人才的需求越来越强,我们从2012年开始就跟西安交大一起设立了一个IBM大数据分析专业,我同时也兼任着该系的主任一职。这就是我在IBM中国开发中心的主要工作经历。

InfoQ:云端的数据处理能力,可以让企业更快速的进行实时数据分析,更便捷地访问、分享、管理企业自己的数据。我们知道IBM目前在这个领域中的产品服务组合被称为Cloud Data Services,其中包含了一系列基于云的企业级数据分析管理工具以及相关服务,虽然IBM提出CDS概念的时间并不长,但我们能看到实际上CDS中的服务并不是新开发的。那么能否请您对那些不太熟悉这些服务的网友们介绍一下IBM CDS的整体架构吗?其中集成了哪些比较重要的产品和解决方案?

吉燕勇: IBM Cloud Data Services涵盖了几乎全部的IBM核心大数据及分析技术能力,它可以分为五个方面,也就是数据库、数据分析、企业内容管理、数据集成、洞察服务。

IBM之前收购了The Whether Company,另外还与Twitter展开了合作,希望能够充分利用这些气象数据、社交数据方面的资源,更好地打造IBM CDS的洞察服务。所有这些技术能力,共同构成了IBM在云端的数据服务,也希望通过这些服务,能为用户带来更多的应用方式。

目前的CDS平台上的服务,更多是面向企业级用户的,这些服务以24×7的形式,不间断地为用户提供运维等方面的技术支持。同时,我们在打造CDS平台的过程中,也将整合大量开源的项目,把各种开源的资源充分利用起来,利用开源项目的优势更好地为用户提供技术服务。

InfoQ:IBM Cloud Data Services中的大部分产品其实已经经过了很长时间的开发演进,已经成为了相对成熟的服务,那么能否请您介绍一下CDS的整个发展历程呢?对于IBM来说,CDS的发展思路是怎样的?

吉燕勇:从整个IT行业发展的角度来看,在过去几年中已经非常明显地在向云计算、大数据、移动开发,甚至包括社交、安全等领域发展,这些其实都是行业转型的热点。

对于IBM CDS来说,我们更关注大数据和云计算两个方向。云计算提供了一种新的交付方式,它可以让企业把更多精力放在业务上。而大数据则可以挖掘出更多的商业价值。

IBM从2004年开始就不断加大投入,花费了将近200亿美金,打造出了完善的、丰富的大数据分析能力。在过去,这些投资可能更多地会用于服务于传统的企业应用开发模式,而现在在这样一个开放转型的过程中,我们则希望能把IBM强大的结构化数据处理、非结构化处理、以及大数据分析的能力可以通过云服务来提供给企业用户,所以我们今年提出了被称为Analytics Platform Services的战略,并且专门成立了这样的一个部门,以收购来的Cloudant等产品为依托,希望能够打造出更好的PaaS方面的能力,让更多用户通过云端就可以使用IBM丰富的服务。

在今年初宣布向认知计算与云平台转型时,整个IBM的大数据分析部门也在向相同的方向转型,今后所有产品线的开发都将围绕着APS战略而进行,力图在CDS中将IBM最具优势的数据处理能力展现出来,这其实对于IBM来说也是一次重要的组织架构调整。

InfoQ:在IBM Cloud Data Services的发展过程当中,遇到过哪些困难?应该如何去应对这些挑战?

吉燕勇:主要的挑战还是在于开发团队思维模式的转变上。过去十几年我们一直采用的是传统的本地开发模式,虽然同样的大数据分析,但毕竟不是基于云来进行开发。因此,在转型CDS的过程中,整个团队需要认真想清楚,我们的这些服务怎么迁移到云端,用户在云端是如何使用这些服务的,用户遇到问题时我们又该如何在云端提供技术支持等这些问题。所以在开发模式以及管理模式的转变上还是花费了相当多的时间的。

除此之外,在转型发展的过程当中,也涉及到了很多新技术的运用,也得到了新的积累,但相比较之下,这些技术上的困难还是比较容易解决的。

InfoQ:您认为像IBM Cloud Data Services这样的服务平台,可以使哪些受众获益最多呢?

吉燕勇:数据现在已经变成企业最宝贵的资产之一,无论是企业IT人员,还是业务人员,都想利用数据来发掘更多的商业价值,他们都希望通过对数据的分析,能有所回报和收益。而CDS其实可以让企业中的所有角色都能获益。

对于企业中的业务人员来说,他们可以直接通过CDS里面一些服务和工具来获得具有预测性和指导性的分析能力,同时并不需要他们拥有IT专业知识,比如IBM刚刚在中国市场发布的基于云的认知计算与数据分析解决方案Watson Analytics就是这样的工具,业务人员可以很容易地获得业务洞察力并提升业务运营效率。

对于传统开发人员来说,同样也可以通过CDS这种基于云的一站式服务模式,迅速地获取常用的开发工具集合,提升开发速度。

对于传统企业里的IT管理人员来说,则可以通过云服务,结合自身内部的一些现有的解决方案,很快打造出一种混合式的服务出来,并让整个企业因此而获益。

对于目前在全球范围内谈得比较多的数据科学家来说,同样很有帮助。CDS不但提供了大量开源工具与传统工具,还提供了很多独有数据的访问权,数据科学家可以在这样的环境中较快地开展工作。

InfoQ:目前在这个领域当中,同样也有其他的企业推出了相关的产品和服务,那么相比之下,您认为Cloud Data Services的不同的之处在于哪些方面?另外在帮助企业上云方面,它又能为企业带来哪些竞争优势呢?

吉燕勇:首先第一点,IBM正在专注于将传统的数据服务转型为云服务。IBM在大数据分析领域中经过长时间的内部研发与外部收购,已经形成了非常成熟的大数据分析产品线,因此现在为了适应新的转型趋势,而将IBM在大数据领域的技术优势转移到云上,以便更好地服务用户。

其次,IBM希望通过云计算打造出一种面向企业的平台级服务,企业用户将可以得到全天候的技术支持服务。目前IBM是通过美国、英国、中国,三个地区的团队来提供24x7的企业级的服务,并对企业用户需求实现快速响应,为企业用户的业务连续性提供保障。

第三,IBM一直非常支持开源,在CDS平台中,我们将IBM自行研发的大数据分析产品与开源项目整合到了一起,比如Apache Spark cloud service。IBM希望能将开源的特点,以及IBM在大数据领域的优势结合在一起,为用户打造一个比较完善的服务环境。

InfoQ:您刚才提到了平台级的服务,那我们可以看到在IBM Bluemix上也提供了一些IBM CDS中的服务,您是否可以谈谈IBM CDS与IBM Bluemix的关系?这两个平台又是怎样合作为用户提供服务的?

吉燕勇:Bluemix与CDS都是IBM推出的服务平台,IBM一开始就在思考如何让这两者进行合作,如何能够让用户更方便、更快捷、更有效地去运用IBM的大数据分析能力。

Bluemix比较侧重于面向开发者来提供服务,在开发过程中可以调用很多现成的服务以实现不同的功能。而CDS则是将大数据分析相关服务放到了Bluemix中,这样开发者就可以在Bluemix平台上直接调用IBM的数据分析与处理服务。

InfoQ:您能谈一谈目前IBM Cloud Data Services的发展重心在于哪个方面吗?

吉燕勇:目前我们部门的重点工作还是开发和运维,实际上我们的团队正在负责为IBM全球用户提供运维支持,并实现不宕机的保障。这里运维工作可能跟传统的运维不太一样,它需要以一种创新、前瞻的思路来考虑可能出现的问题,比如如何能快速发现用户出现了技术问题,如何进行自动监控并处理好这些问题,同时还要和开发部门紧密合作,思考如何能把其他部门开发人员的服务快速通过DevOps上线,并解决遇到的问题。

IBM今年整体要求所有部门都要把重心放在云上,IBM中国区开发中心同样也不例外。

在重点研发工作上,IBM中国其实正在扮演着非常重要角色,这其中也涉及到很多核心的专利技术,而这也是我的整个团队的核心价值所在。

InfoQ:想请您谈一谈用户们都非常关心的服务落地问题,目前IBM Cloud Data Services中的产品和服务落地情况怎么样?未来还有什么规划?

吉燕勇:我们希望打造的服务平台,首先是要能把之前IBM的所有技术能力都放进来,接着让这些能力相互配合并形成一种整体式的服务。我们还准备加速研发,在数据科学以及机器学习等方面加强投入,让这个平台能够更加完善,能为全球用户提供服务。

关于服务落地,我们需要适应并遵从国家相关的数据安全法规。在此基础上,我们会加速CDS相关服务的落地,加大与本地企业的合作力度,利用我们团队的技术研发能力尽快解决落地过程中遇到的各种问题,不断推动服务落地的进程。

今年5月份通过与21世纪互联的合作,Cloudant已经正式落地中国。而其他服务则将基于中国市场具体的用户需求,排出落地部署优先级,然后再一步步实现落地。