第2章 数据获取

一名数据科学家最重要的任务之一就是将数据加载到数据科学平台上。不同于那些不可控的、临时性的过程,本章讲解的是在Spark中,通用的数据采集管道可以被构造成可重复使用的组件,跨越多路输入数据流。我们演示一种配置,教大家如何在各种不同的运行条件下传递重要的馈送管理信息。

读者将学习如何构建内容登记、使用它来追踪所有加载到系统中的输入、传递采集管道的指标,这样这些流就能自动可靠地运行,无须人工干预。

在这一章里,我们将探讨以下主题。

  • 数据管道。
  • 通用采集框架。
  • 介绍全球事件、语言和语调数据库——GDELT数据集。
  • 实时监控新数据。
  • Kafka接收流数据。
  • 登记新内容,为追踪构建存储。
  • 在Kibana中将内容指标可视化,以监控采集进程和数据健康度。