- 精通Spark数据科学
- (美)安德鲁·摩根 (英)安托万·阿门德 大卫·乔治 马修·哈利特
- 317字
- 2021-01-15 16:45:34
第1章 数据科学生态系统
作为一名数据科学家,你应该已经能非常熟练地处理文件和大量数据。但是除了对单一类型的数据进行简单分析外,你还需要一种组织和编目数据的方法,以便有效地管理数据。这种能力实际上是成为一名伟大的数据科学家的基础。因为随着数据量的增加和复杂性的提高,成功的泛化和失败的过拟合之间的区别就在于是否有一个一致且强大的方法。
本章介绍处理大规模数据的方法和生态系统,侧重于介绍数据科学的工具和技术。本章主要介绍运行环境和如何正确配置环境,同时也介绍一些与整体数据架构相关的非功能性注意事项。虽然这一阶段还没涉及具体的数据科学研究,但它为本书的成功提供了坚实的平台。
在这一章里,我们将探讨以下主题。
- 数据管理职责。
- 数据架构。
- 配套工具。