第3章 “吃下去吐出来”——Hadoop文件I/O系统详解

在对数据进行处理之前，需要将数据转化成Hadoop能够辨识的格式，其后才能开始处理。但大规模数据的数据转换与传输本身就是一项极艰难的任务，同时又要符合Hadoop数据处理的要求。在已有的格式不能够满足Hadoop分布式存储和传输需要的基础上，Hadoop自定义了一套特有的文件I/O系统。