- 机器学习系统:设计和实现
- 麦络 董豪编著
- 319字
- 2024-12-27 20:30:17
2.2.2 数据处理
配置好运行信息后,首先讨论数据处理API的设计。这些API提供了大量Python函数,支持用户用一行命令即可读入常见的训练数据集,如MNIST(Mixed National Institute of Standards and Technology Database)、CIFAR(Canadian Institute For Advanced Research)、COCO(Microsoft Common Objects in Context)等。在加载之前需要下载数据集存放在./datasets/MNIST_Data路径中;MindSpore提供了用于数据处理的API模块mindspore.dataset,用于存储样本和标签。在加载数据集前,通常会对数据集进行一些处理,mindspore.dataset也集成了常见的数据处理方法。代码2.2读取了MNIST的训练数据,其包含大小为28×28的6万张图片,返回DataSet对象。
代码2.2 读取MNIST训练数据
有了DataSet对象后,通常需要对数据进行增强,常用的数据增强包括翻转、旋转、剪裁、缩放等;在MindSpore中使用map映射函数将数据增强的操作映射到数据集中,之后进行打乱(Shuffle)和批处理(Batch),如代码2.3所示。
代码2.3 数据处理