2.1.2 Hadoop起源及发展史

2002年,Nutch项目面世。它是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低、无法存储爬取网页和搜索网页时产生的海量数据的问题。

2003年,Google发布了一篇论文,专门介绍其分布式文件存储系统GFS。鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS。

2004年,Google发布了另一篇论文,专门介绍其处理大数据的计算框架MapReduce。2005年年初,Nutch开发人员在Nutch上实现了开源的MapReduce,这就是Hadoop的雏形。2006年,Nutch将NDFS和MapReduce迁出Nutch,并命名为Hadoop,同时Yahoo专门为Hadoop建立一个团队,将其发展成为能够处理海量数据的Web框架。2008年,Hadoop成为Apache的顶级项目。

2007年9月发布的Hadoop 0.14.1是第一个稳定版本。

2009年4月发布了Hadoop 0.20.0版本。

2011年12月发布的Hadoop 1.0.0版本是经过将近6年的酝酿后发布的一个版本,该版本基于0.20安全代码线,增加了以下功能。

(1)HBase(append/hsynch/hflush和security)。

(2)WebHDFS(完全支持安全)。

(3)增加HBase访问本地文件系统的性能。

2012年5月发布的Hadoop 2.0.0-alpha是Hadoop-2.x系列的第一个版本,增加了以下重要特性[2]

(1)NameNode HA(High Availability,高可用性)。当主NameNode出故障时,备用NameNode可以快速启动,成为主NameNode,向外提供服务。

(2)HDFS Federation。

(3)YARN aka NextGen MapReduce。

2017年9月发布的Hadoop 3.0.0 generally版本是Hadoop 3.x系列的第一个版本。