译者序

当前，大数据分析是一个广受关注的技术领域，大数据无法在一定时间范围内用常规软件工具进行采集、管理和分析处理，我们需要更强大的平台才能具备更强的决策力、洞察力和流程优化能力。而Spark就是满足这种需求的一款优秀的大数据统一分析引擎，它速度快、易使用、通用性强，可以在不同的平台（Hadoop、Apache Mesos、Kubernetes、单节点或云平台）上运行。

本书是一部专门介绍Spark的著作，你能从中学习到Spark API的核心内容并掌握如何应用框架中的库，但本书并不局限于讲解Spark框架本身，而是致力于深入研究如何使用Spark来提供生产级的数据科学解决方案。作者们凭借丰富的数据科学业界经验，为我们指出大数据实战需要注意的技巧和初学者容易陷入的各种“坑”。本书让我们了解在不同的用户场景下，如何用Spark实现数据处理全流程。本书有丰富的示例代码，通过阅读本书，读者会获益良多，并能够应对常见的大数据分析场景。

在这里，要特别感谢福州外语外贸学院，因为本书受福州外语外贸学院著作基金支持，并作为省级一流专业建设点——物流专业新文科工作的建设成果。还要感谢人民邮电出版社胡俊英编辑专业、细心地审核本书，与她合作很轻松、很开心。

此外，由于译者水平有限，书中难免有欠妥之处，如有任何意见和建议，请不吝告知，我们将感激不尽。我们的邮箱分别是18150095612@189.com和liusj@fjinfo.org.cn。

译者

在这里，特别感谢福建省科学技术信息研究所教授级高级工程师方延风以及福州外语外贸学院经管学院副院长刘丹的热心帮助。

——柯晟劼

我要感谢我的妻子张梅在翻译过程中的大力支持与帮助。还要感谢刘一宁小朋友，虽然在本书的翻译过程中，她已经学会跑进书房说“爸爸不要坐在电脑前面工作，来陪我玩！”——让我的翻译周期变长了一点点。但她的笑声却是我工作的无穷动力！

——刘少俊