第1章 Kafka体系架构基础
Apache Kafka是一个用Scala语言编写的开源消息系统,通常用于大数据的流式计算平台。Kafka最早是由LinkedIn公司开发的,后来LinkedIn公司将Kafka贡献给了Apache基金会。Apache Kafka具备高吞吐量、高容错性、可持久性和可水平扩展的特点。正因为Kafka在流数据处理领域中的卓越表现,目前受到越来越多的青睐。
下面举例说明Kafka的应用场景。
• 消息系统:Kafka支持Topic广播类型的消息,具备高可靠性和容错机制。同时Kafka也可以保证消息的顺序性和可追溯性。传统的消息系统很难实现这些消息系统的特性。同时,Kafka可以将消息持久化保存到磁盘,从而有效地减少数据丢失的风险。从这个角度看,Kafka也可以看成是一个数据存储系统。
• 大数据流式计算处理:在大数据计算领域中,计算主要分为大数据离线计算和大数据流式计算。可以将流式数据进行实时采集然后缓存到Kafka中,从而进一步通过Storm、Spark Streaming和Flink DataStream进行数据的实时计算。
• 系统的解耦:由于Kafka支持异步的消息机制,可以将Kafka用于系统的解耦设计。这样,一个系统的架构变动,就不会影响另一个系统的运行。