- Apache Kylin权威指南
- Apache Kylin核心团队
- 1166字
- 2023-01-13 14:17:37
推荐序一
2016年早些时候,我曾经写过一篇有关联通Hadoop的文章,在其中的“展望篇”里谈到过OLAP on Hadoop的新技术Apache Kylin。今天《Apache Kylin权威指南》一书即将出版,我也有幸受本书作者之一韩卿(Luke)的邀请来写推荐序。
联通集团的BI是2010年建设的,由于全国有4亿用户的明细数据需要集中处理,再加上对移动互联网用户流量日志的采集,使得数据量急增。截至2013年已达PB级规模,并仍以指数级速度增长,传统数据仓库不堪重负,数据的存储和批量处理成了瓶颈。另一方面BI上提供的面向用户的数据查询和多维分析服务,使得后台生产的Cube越来越多,几年下来已有七八千个。用户需求对某一维度的改变往往会造成一个新Cube的产生,耗费资源不说,也为管理带来了极大的不便。2013年年底我们在传统数据仓库之外搭建了第一个Hadoop平台,节点数也从最初的几十个发展到了今天的3500个,大大提高了系统的存储及计算能力,为联通大数据对内对外的发展都起到了至关重要的作用。美中不足的是分布式存储和并行计算只解决了系统的性能问题,尽管我们也部署了像Hive、Impala这样的SQL on Hadoop技术,但在Hadoop体系上的多维联机分析(OLAP)却始终得不到满意的结果。Oracle + Hadoop的混搭架构还因为有对OLAP的需求而继续维持着,零散的Cube数还在继续增长,架构师们还在继续寻找奇迹方案的出现。
Apache Kylin就是在这种大背景下出现在我们的视野中的。一个好的产品首先要有一个清晰的定位,要有一套能够明确解决行业痛点的方案。Kylin在这点上做得非常好,它把自己定义为Hadoop大数据平台上的一个开源OLAP引擎。三个关键词:Hadoop、开源、OLAP,使它的定位一目了然,不用过多地解释。同时,Kylin也是透明的,不像许多产品把自己使用的技术搞得很神秘,Kylin沿用了原来数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到HBase里,供用户查询使用,使得现有的分析师和业务人员能够快速理解和掌握。相比于IOE时代的BI,它非常巧妙地使用了Hadoop的分布式存储与并行计算能力,用横向可扩展的硬件资源来换取计算性能的极大提高。
为了能够将Kylin真正融入到联通的大数据架构中,我们正在紧锣密鼓地组织系统测试。比如对单用户级的数据查询、第三方可视化工具的集成、多维Cube建立的维度数极限等的测试。我们还计划用Kafka来导入数据,用Spark来加工Cube,用其他产品来代替HBase进而提高数据读取性能,用Kylin的路由选择来桥接新老Cube,等等。这时出版的《Apache Kylin权威指南》一书,对于我们来说无疑是雪中之炭,我们的许多疑惑都会在这本指南当中找到权威解答。
联通公司现在经历的这些过程很多企业都会遇到,“坑”我们愿意去填,路希望大家来走。在向读者推荐《Apache Kylin权威指南》一书的同时,我们真诚期望Kylin(作为Apache开源社区第一个由中国人开发并主导的产品)能够成功,能够在不断的实践中提高自己,能够充分利用中国这个占世界数据量20%的大市场,把自己打造成大数据领域的一只独角兽。
范济安
国家千人计划专家
中国联通集团信息化部CTO