- 精通Spark数据科学
- (美)安德鲁·摩根 (英)安托万·阿门德 大卫·乔治 马修·哈利特
- 1456字
- 2021-01-15 16:45:32
作者简介
安德鲁·摩根(Andrew Morgan)是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其全球客户设计系统——通常是大型、复杂和国际性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。Andrew是一位活跃的数据科学家,也是趋势演算(TrendCalculus)算法的发明者。该算法是他为自己的研究项目而开发的,该项目旨在研究基于机器学习的长期预测,这些预测可以在不断变化的文化、地缘政治和经济趋势中发现规律。他还是Hadoop Summit EU数据科学委员会的成员,并在许多会议上就各种数据主题发表过演讲。他也活跃于他的居住地伦敦的数据科学和大数据社区。
谨以本书献给我的妻子Steffy、我的孩子Alice和Adele,以及我所有的朋友和同事,感谢他们一直支持着我。这本书也是为了纪念我在多伦多大学学习时的第一位导师——Ferenc Csillag教授。早在1994年,Ferko就用未来愿景激励我:我们可以使用全球范围的数据集和复杂算法来监测和优化周遭的世界。这是一个改变我人生的信念,关于用大数据科学拯救世界的梦想,我仍在追寻。
安托万·阿门德(Antoine Amend)是一位对大数据工程和可扩展计算充满热情的数据科学家。这本书的主题是“折腾”天文数字量级的非结构化数据以获得新的见解,这主要源于Antoine的理论物理学背景。他于2008年毕业并获得天体物理学硕士学位。在Hadoop的早期阶段,在大数据的概念普及之前,他曾在瑞士的一家大型咨询公司工作。从那时起,他就开始接触大数据技术。现在他在巴克莱银行担任网络安全数据科学部门的主管。通过将科学方法与核心IT技能相结合,Antoine连续两年获得了在得克萨斯州奥斯汀举行的大数据世界锦标赛决赛资格。他在2014年和2015年都名列前12位(超过2 000多名竞争对手),这两次比赛中他还使用了本书介绍的方法和技术赢得了创新奖。
我要感谢我的妻子伴我同行,她一直是我不断增进知识和推动事业发展的动力。另外,还要感谢我的孩子们,他们教会我如何在必要时放松心情并获得新的想法。
我要感谢同事们,特别是Samuel Assefa博士、Eirini Spyropoulou博士和Will Hardman,他们耐心倾听我的“疯狂”理论。还要感谢过去几年有幸与之合作的其他人。最后,我想特别感谢以前的经理和导师,他们帮助我在数据科学的职业生涯中顺利发展,谢谢Manu、Toby、Gary和Harry。
大卫·乔治(David George)是一位杰出的分布式计算专家,拥有超过15年的数据系统从业经验,主要服务于全球闻名的IT咨询机构和品牌。他很早以前就开始使用Hadoop核心技术,并做过大规模的实施。David总是采用务实的方法进行软件设计,并重视简约中的优雅。
如今,他继续作为首席工程师为金融行业客户设计可扩展的应用,并满足一些较为严苛的需求。他的新项目侧重于采用先进的人工智能技术来提高知识产业的自动化水平。
本书献给Ellie、Shannon、Pauline和Pumpkin等人,此处无法一一列出了!
马修 · 哈利特(Matthew Hallett)是一名软件工程师和计算机科学家,拥有超过15年的从业经验。他是一名面向对象的“专家级程序员”和系统工程师,拥有丰富的底层编程范式知识。在过去的几年里,他在Hadoop和关键业务环境中的分布式编程方面积累了丰富的专业知识,这些环境由数千节点的数据中心组成。Matthew在分布式算法和分布式计算体系结构的实施方面拥有多种语言的咨询经验,目前是“四大审计公司”数据科学与工程团队的数据工程师顾问。
感谢Lynnie的理解和支持,让我有时间在深夜、周末和假期写这本书。也感谢Nugget让本书变得有价值。
还要感谢Gary Richardson、David Pryce博士、Helen Ramsden博士、Sima Reichenbach博士和Fabio Petroni博士提供的宝贵建议和指导,这些建议和指导为本书的完成提供了帮助——如果没有他们的帮助和贡献,这本书可能永远无法完成!