2.1.2 Hadoop起源及发展史_大数据采集与处理-QQ阅读男生玄幻网

书名：大数据采集与处理
作者名：张雪萍主编
本章字数：517字
更新时间：2022-08-16 17:26:08

2.1.2　Hadoop起源及发展史

2002年，Nutch项目面世。它是一个爬取网页工具和搜索引擎系统，和其他众多的工具一样，都遇到了在处理海量数据时效率低、无法存储爬取网页和搜索网页时产生的海量数据的问题。

2003年，Google发布了一篇论文，专门介绍其分布式文件存储系统GFS。鉴于GFS在存储超大文件方面的优势，Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统，即NDFS。

2004年，Google发布了另一篇论文，专门介绍其处理大数据的计算框架MapReduce。2005年年初，Nutch开发人员在Nutch上实现了开源的MapReduce，这就是Hadoop的雏形。2006年，Nutch将NDFS和MapReduce迁出Nutch，并命名为Hadoop，同时Yahoo专门为Hadoop建立一个团队，将其发展成为能够处理海量数据的Web框架。2008年，Hadoop成为Apache的顶级项目。

2007年9月发布的Hadoop 0.14.1是第一个稳定版本。

2009年4月发布了Hadoop 0.20.0版本。

2011年12月发布的Hadoop 1.0.0版本是经过将近6年的酝酿后发布的一个版本，该版本基于0.20安全代码线，增加了以下功能。

（1）HBase（append/hsynch/hflush和security）。

（2）WebHDFS（完全支持安全）。

（3）增加HBase访问本地文件系统的性能。

2012年5月发布的Hadoop 2.0.0-alpha是Hadoop-2.x系列的第一个版本，增加了以下重要特性[2]。

（1）NameNode HA（High Availability，高可用性）。当主NameNode出故障时，备用NameNode可以快速启动，成为主NameNode，向外提供服务。

（2）HDFS Federation。

（3）YARN aka NextGen MapReduce。

2017年9月发布的Hadoop 3.0.0 generally版本是Hadoop 3.x系列的第一个版本。

本周热推：

数据质量管理：数据可靠性与数据质量问题解决之道 MySQL 8.x从入门到精通（视频教学版）Deep Learning with R for Beginners 基于MATLAB的试验设计和数据处理 Python医学数据分析入门