前　　言

数据科学的目标是利用数据改变世界，而这个目标主要是通过打乱和改变实际行业中的流程来实现的。要在这个层面上操作，我们需要建立实用的数据科学解决方案，这种方案能解决真正的问题，能可靠地运行，能让人们信任并采取相应的行动。

本书介绍了如何使用Spark来提供生产级的数据科学解决方案，使之具有足够的创新性、颠覆性和可靠性，并值得信赖。在写这本书的时候，作者试图提供一个“超越传统指导教程”风格的作品：不仅提供代码的例子，而且拓展了技术和思维方法。你要像专业人员那样去探索内容；正如他人所言，“内容为王”！读者会注意到本书着重于新闻分析，偶尔也引入其他数据集，如Twitter数据集。这种对新闻数据的强调不是偶然的，是因为作者一直关注全球范围内的数据集。

本书致力于解决的隐含问题是：缺乏数据，以至于无法提供人们如何以及为什么做出决策的背景信息。通常，可直接访问的数据源非常关注问题的细节，因此，要想了解人们做出决策的依据就需要更广泛的数据集。

思考一个简单的例子，网站用户的关键信息（如年龄、性别、位置、购物行为、订单等）都是已知的，我们可以使用这些数据，根据人们的购物习惯和喜好来进行推荐。

但要想更进一步，就需要更多的背景数据来解释人们为什么会这样做。新闻报道称，一场巨大的大西洋飓风正在逼近佛罗里达海岸线，可能在36小时内到达海岸，这时我们应该推荐人们可能需要的产品，如支持USB的电池组，用于手机充电，还有蜡烛、手电筒、净水器等。通过了解决策的背景，我们可以进行更好的科学研究。

本书提供配套代码，而且在许多情况下这些代码是独一无二的实现。本书深入研究掌握数据科学所需要的技术和技能，其中一些经常被忽视或根本不被考虑。作者拥有多年的商业经验，充分利用自己丰富的知识体系，为大家呈现了一个真实的、令人兴奋的数据科学世界。

前 言

前　　言