第2章 数据工程

随着数据规模的不断增大、数据采集手段的日益多样化,数据管理技术迅速发展,从传统的关系型数据到文本数据、半结构化数据和Web数据,从传统的关系数据库管理到面向大数据的分布式文件系统和数据中心,从经典的查询处理和优化到数据分析和知识发现,从数据集成到应用集成和服务计算,从集中式架构到分布式并行模型和数据密集型计算等。

数据工程是指面向不同计算平台和应用环境,使用信息系统设计、开发和评价的工程化技术和方法。以工程化作为基本出发点的数据处理、分析和应用方法与技术,是计算机科学与技术学科的重要内容、核心与趋势,具有广泛的应用和良好的前景。从工程化的角度理解数据科学,数据工程既包括数据处理技术,也包括数据分析技术和数据服务技术;既包括查询处理和优化、事务和工作流管理和数据库架构等基础内容,也包括数据挖掘与知识发现、时空数据、元数据和社会数据分析等经典问题,另外还包括概率数据、云计算和大数据管理等前沿课题。