第4章 机器学习项目流程与核心概念

我们在前文中提到,机器学习建模过程中80%的时间花在数据和特征工程上,20%的时间花在算法模型上。实际上,项目前期的验证也会花费大量的时间。从机器学习技术的角度看,“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”而从项目的角度看,项目的正确定义与否决定了机器学习项目的成败,因为它在机器学习过程的前端,是机器学习项目的起点。

虽然具体的机器学习项目各有不同,但都有相同的工作,以监督学习为例:如何定义y、如何划分数据集、数据处理、特征工程、模型训练与评估和模型上线等,即机器学习项目有标准化和流程化的软件工程最佳实践。

另外,本章将讲述机器学习算法中的几个核心概念,比如损失函数与正则化、欠拟合和过拟合、数据泄露等,这些都是实践中遇到和需要解决的机器学习问题,却往往被大家忽视。

从项目管理的角度来看,机器学习算法与技术只是实现项目目标的手段而已。本章将平衡地讲述技术方法、工程方法和业务方法。