前言

数据分析是“沙里淘金”,是从大量的数据中获得有价值的知识,而信息社会的数据量正在膨胀,亟须我们从芜杂的数据中淘出社会需要的“真金”,这已经成为人们的共识。无论是国家政府部门、企事业单位,还是个人,数据分析工作都是进行决策之前的重要环节,数据分析工作质量的好坏直接决定着决策的成败。数据分析不仅被应用于经济发展的各个领域,也被应用于人们的日常工作,人们的工作离开数据分析便无法达到满意的效果甚至会导致严重的失误。数据分析的工具、方法有很多,但比较通用且能显示分析人员水平、比较灵活且具有提升空间的莫过于Python数据处理与分析。

Python是“胶水语言”,它的强大之处在于其融入了众多模块。Python语言在数据处理和人工智能上大放异彩,也在于其相应模块具有很大优势。而Python的每一个模块无疑又是一个小的语言体系,这给学生掌握Python数据分析与处理知识增加了负担。有鉴于此,本书采用模块化组织方式,依据Python数据处理与分析的要求组织教学。模块又称扩展库,Python数据分析的主要模块包括重在数值计算、对超大数组进行快速处理的科学计算基础库NumPy,以及以NumPy为基础架构的数据分析包pandas;JSON格式在互联网时代应用广泛,JSON模块则支持JSON格式与Python对象的转换;数据分析需要读/写数据库,本书专门介绍了pymysql模块的使用方法;可视化是数据分析最重要的一环,本书分别介绍了模块Matplotlib、Flask框架与ECharts;数据挖掘则聚焦机器学习,本书特别介绍了sklearn模块各种算法模型的训练与应用。

本书面向大数据应用型人才,使用Python 3.6.5版本,采用流行的PyCharm IDE开发环境。本书是数据分析、挖掘的综合与深入应用,在学习本书之前读者应熟练掌握Python的基本语句和函数、MySQL数据库的基本操作以及SQL语句的编写方法。本书对Python数据分析模块的语句知识点进行了案例介绍,以“动动手练习”的形式提高读者的编程技能。编者近几年一直从事数据分析教学,并带领学生参加各种大数据竞赛,将积累了多年的Python开发经验编写成书,希望能对更多的同行和学生有所助益。

在此特别感谢王永恒、王子、刘婷婷、刘敏老师参与本书的编写,他们的专业知识和研究成果为本书的顺利出版起到至关重要的作用。

编者

2023年9月