- MapReduce 2.0源码分析与编程实战
- 王晓华
- 143字
- 2020-06-26 13:50:12
第3章 “吃下去吐出来”——Hadoop文件I/O系统详解
在对数据进行处理之前,需要将数据转化成Hadoop能够辨识的格式,其后才能开始处理。但大规模数据的数据转换与传输本身就是一项极艰难的任务,同时又要符合Hadoop数据处理的要求。在已有的格式不能够满足Hadoop分布式存储和传输需要的基础上,Hadoop自定义了一套特有的文件I/O系统。
在对数据进行处理之前,需要将数据转化成Hadoop能够辨识的格式,其后才能开始处理。但大规模数据的数据转换与传输本身就是一项极艰难的任务,同时又要符合Hadoop数据处理的要求。在已有的格式不能够满足Hadoop分布式存储和传输需要的基础上,Hadoop自定义了一套特有的文件I/O系统。