1.2.2 数据可视化的意义
与统计处理、机器学习类似,可视化处理也是数据科学中的重要研究方法之一。数据可视化在数据科学中的重要地位主要表现在以下4个方面。
1.视觉是人类获得信息的最主要途径
1)视觉感知是人类大脑的最主要功能之一
据Ward M. O.(2010)的研究,超过50%的人脑功能用于视觉信息的处理,视觉信息处理是人脑的最主要功能之一。视觉器官是人和动物利用光的作用感知外界事物的感受器官,光作用于视觉器官,使其感受细胞兴奋,其信息经过视觉神经系统加工后产生视觉。通过视觉,人和动物感知到画面的大小、明暗、颜色、变化趋势,人的知识中有80%以上的信息经过视觉获得(见图1-2),所以,数据可视化可以帮助我们更好地传递信息,毕竟人对视觉获取的信息比较容易。
图1-2 人视觉获取80%的信息
2)眼睛是感知信息能力最强的人体器官之一
相对于其他人体感知器官,眼睛的感知信息的能力最为发达,最高带宽可达2.3GB/s。除了科学研究,人们在平时生活中也意识到视觉感知活动的重要性。例如,一图胜千言,图片、动态图、短视频、微电影等。
2.数据可视化的主要优势
1)可以洞察统计分析无法发现的结构和细节
以著名的Anscombe的4组数据为例,统计学家F. J. Anscombe于1973年提出了4组统计特征基本相同的数据集(见表1-1),他在论文Graphs in Statistical Analysis中,分析散点图和线性回归的关系时提到了图像表示对数据分析的重要性。从统计学角度难以看出这4组数据的区别,但可视化后很容易找出它们的区别(见图1-3)。
表1-1 Anscombe的4组数据(Anscombe's quartet)
图1-3 Anscombe's quartet的可视化显示
每组数据有变量X和Y,使用常用的统计算法分析这4组数据,会发现这4组数据拥有相同的统计值:
(1)平均值(Means):X =9, Y = 7.5。
(2)方差(Variance):X =11, Y =4.112。
(3)相关度(Correlation):X-Y:0.816。
(4)线性回归(Linear regression):Y=3.0+0.5X。
显然,按照传统的统计分析方法无法找出这4组数据的区别,但是如果采用可视化的方法:
(1)第一组数据图显示,X和Y有弱线性相关(Week linear relation)。
(2)第二组数据图显示,X和Y有曲线回归关系(Curve regression relation)。
(3)第三组数据图显示,X和Y有强线性相关(Strong linear relation),一个异常点。
(4)第四组数据图显示,横坐标数据集中在一起,而且也有一个异常值。
用简单的图表对比就会发现,实际上这些数据用图像表示出来后,有完全不一样的故事。
2)可视化处理有利于大数据普及应用
数据可视化处理结果的解读对用户专业知识水平的要求较低。相对于数据统计结果,可视化结果对读者知识水平的要求不高,即使不了解统计学专业术语的本质含义,也可以较好地理解数据可视化处理结果。
3.可视化能够帮助人们提高理解与处理数据的效率
英国麻醉学家、流行病学家以及麻醉医学和公共卫生间医院的开拓者约翰·斯诺(John Snow,1813—1858)采用数据可视化的方法研究伦敦西部西敏市苏活区霍乱,并发现了霍乱的传播途径及预防措施。
1854年,霍乱在伦敦Soho区爆发,并迅速传播,当时对霍乱起因的主流意见仅仅是空气传播,斯诺通过研究霍乱病死者的日常生活情况找到他们的共同行为模式,在伦敦地图上手工绘制宽街水泵附近的霍乱爆发热点,将水质研究、霍乱死亡统计分布图与地图对比分析,发现霍乱可以由水源传播,并由此制作出世界上第一份统计地图——约翰·斯诺伦敦霍乱地图,发现了霍乱与饮用不洁水的关系。在斯诺的呼吁下,政府及时关闭了不洁水源,有效制止了霍乱的流行。斯诺还推荐了几种实用的预防措施,如清洗肮脏的衣被、洗手和将水烧开饮用等,效果良好。虽然约翰·斯诺没有发现导致霍乱的病原体,但他创造性地使用空间统计学找到了传染源,并以此证明了这种方法的价值。今天,绘制地图已成为医学地理学及传染学中一项基本的研究方法。“斯诺的霍乱地图”已成为一个经典案例。
4.数据可视化能够在小空间展示大规模数据
每一个数据变成一个点,数据间关系通过线段连接,大量的数据能映射到非常小的图片上,能更好地帮助我们记忆。人的认知是有局限性的,记忆力和注意力很有限,通常会忽视很多事情。可视化能够增强人的认知,使人们做出更高效、正确的判断,帮助人们思考并看到传统统计分析所看不到的内容。俗话说得好,“百闻不如一见”。将数据总结到图表中,能够更好地帮助人们记忆。