第2章　数据获取

一名数据科学家最重要的任务之一就是将数据加载到数据科学平台上。不同于那些不可控的、临时性的过程，本章讲解的是在Spark中，通用的数据采集管道可以被构造成可重复使用的组件，跨越多路输入数据流。我们演示一种配置，教大家如何在各种不同的运行条件下传递重要的馈送管理信息。

读者将学习如何构建内容登记、使用它来追踪所有加载到系统中的输入、传递采集管道的指标，这样这些流就能自动可靠地运行，无须人工干预。

在这一章里，我们将探讨以下主题。