2.6 本章小结

本章是工程实践篇,是第15章的工程基础,包含了Anaconda环境、Pipenv工具介绍与使用、Docker介绍与使用,以及基于上述工具构建的标准化的数据科学项目工程环境。

2.1节介绍了Anaconda在不同操作系统中的安装方法和该环境中Jupyter的使用方法和技巧。

2.2节介绍了一款极具前景的Python包管理工具——Pipenv,用于实现高级用户自定义包和版本的管理需求,同时解决了不同版本、环境迁移的痛点。该工具是通用的Python管理工具,并不仅针对机器学习或数据科学的Python环境。

2.3节介绍了Docker,它能够彻底解决工程上不同平台或版本环境迁移的痛点。以Docker形式的打包封装非常适用于机器学习技术和模型的输出解决方案——交付和部署。此外,本节简洁地构建了一个Web服务,模拟了开发、测试、发布镜像这一完整的Docker开发流程。由于Docker涉及虚拟化技术链和生态,书中不能详尽描述,需要读者自行深入学习。

2.4节和2.5节借助IT领域成熟的技术手段和软件工程方法打造了数据科学项目的标准化的项目开发环境,该环境读者可自行在Docker仓库(Registry)Docker Hub下载。

本章属于机器学习项目流程里最前面的环节——工程环境。实际上,对于机器学习整个建模流程业界也开始出现了全流程的标准化和平台化,比如原Spark团队开发的MLflow[1]。感兴趣的读者可进一步了解。

[1] https://www.mlflow.org