1 引言我们为什么需要数据可视化

1.1 什么是可视化

广义地讲,可视化是一种把抽象的事物用图形、图像呈现出来的方法。之所以这样做,是因为人脑在漫长的演化中,形成了强大的图形、图像处理能力。我们对于图形、图像的感知速度要远远快于文字。换言之,在进行信息传输时,使用视觉化的图形往往能够化繁为简、一目了然,帮助人脑快速识别和理解事物。

例如,千万年前,我们的祖先就将动物和人的形状勾勒在洞穴中。这其实就是把当时的真实场景用符号化的形式“可视化”在墙上。尽管只是一些简单的图形,但是我们在看到这幅图时,仍然能够快速识别出先民的生活内容,甚至想象他们的生活氛围。这些历史深处的故事就这样通过图形的方式,穿越到你我面前(见图1.1.1)。

图1.1.1 阿尔塔米拉洞穴壁画,西班牙,距今至少12000年

再如,今天处处遍布城市空间的路标、图标,也是对抽象事物的“可视化”——当我们看到一个巨大的“P”字符号时,就知道表示停车场;当我们看到一男一女两个并排小人时,就知道表示洗手间。图1.1.2展示了一些常见的图标设计。可以看到,这些可视化都是对现实中复杂的事物、概念进行了提炼和总结,并最终转化为简单的图形,从而大大提升了信息的传达效率。

图1.1.2 常见的图标设计

当然,今天人们常说的“可视化”,常常是更狭义的可视化,即特指对于数据的可视化。所谓数据,是指“通过观测得到的数字性的特征或信息”。与上文的两个例子类似,数据可视化具有使抽象数据具象化的能力(如无特指,后文中的“可视化”都指数据可视化)。

按此追溯,最早诞生的数据可视化形态是地图。我们的祖先从很早的时候就开始测绘山川、记录气象。人们将东、南、西、北这样抽象的方向概念,以及各个方向上观测到的事物绘制在一张图上,从而帮助记录、辨识自然环境。只不过早期的地图仍然以表意为主,很多时候并不符合科学规律(见图1.1.3)。而从15世纪的大航海时代起,全球性的地理大发现使得地理数据得到极大丰富,地图也逐渐走向科学和精确。

图1.1.3 《山海经》残片中的地图,现藏于韩国国立中央博物馆。世界被理解为一个圆形,“中国”被绘制在最中心

随着启蒙时代的来临,理性和科学得到张扬,数学、物理、医学等领域取得显著进步。与此同时,数据的采集和分析也逐渐成为一种科学研究方法,这自然也带来了数据可视化的大发展。值得注意的是,在以往,尽管地图作为一种数据可视化方法已经出现,但它仍然是一种比较具象的方法,比较写实,和绘画相对接近。18世纪以后,真正具有现代意义的、以抽象的几何形状组织起来的统计图表开始兴起。

例如,目前已知最早的柱状图、折线图、饼图都由苏格兰工程师、政治经济学家William Playfair绘制。图1.1.4展示了他于1786年绘制的折线图,对丹麦和挪威在1700年—1780年间的进出口数据进行了可视化,黄线代表进口,红线代表出口。可以看到,数据被组织到了一个直角坐标系中(也被称为“笛卡儿坐标系”,由法国数学家笛卡儿于1637年提出),横轴表示时间,纵轴表示进/出口额。显然,这种把信息呈现在抽象几何空间的手法,已经与早期具象的、表意的地图大不相同。在经历了17、18世纪的积累和酝酿后,数据可视化在19世纪迎来了真正的爆发。因此,在许多可视化教学资料中,也把19世纪作为现代意义上数据可视化的开端。

图1.1.4 William Playfair绘制的折线图(1786年)

在19世纪,当时的自然和社会科学家已经可以比较熟练地运用各种数据图表来分析和解决问题。比如,19世纪中叶,William Farr、John Snow等人已经使用可视化来辅助分析欧洲的瘟疫随季节的变化情况,以及疫情在城市各个区域的分布等(见图1.1.5)。

在经历了几个世纪的实践后,到20世纪中后期,一些系统性的可视化理论才有了显著发展。例如,法国著名制图师Jacques Bertin基于自己丰富的制图经历,总结了一系列可视化的规律和设计要点。如图1.1.6所示,虽然制图仍然是由手工完成的,但已经有较为规范化、标准化的工具和工艺流程。他于1967年出版的Semiology of Graphics一书,为当代可视化理论的形成打下了基础。

20世纪80年代,以William S.Cleveland为代表的心理学家开始系统地评估可视化的有效性。同时,奠基性的可视化专著开始出现,如Edward Tufte的The Visual Display of Quantitative Information,以及此后陆续出版的Envisioning Information、Visual Explanation等书。

图1.1.5 William Farr绘制的伦敦瘟疫死亡率变化与温度的关系(1852年),现藏于大英博物馆。该图表的设计用到了极坐标系,数据绘制于圆上

图1.1.6 Jacques Bertin时代的制图方法。Serge Bonin拍摄,现藏于法国国家档案馆

进入信息时代,数据呈指数级爆发,真正渗透到各行各业。一方面,数据不再仅仅保存在纸张上,而是以电子化的方式存储于设备上,这使得数据的采集和录入更加便利。另一方面,由于人们的社会生活极强地与电子设备绑定,各种数据被不断上传、输送、下载,数据在高速交换中又不断产生新数据。在这样的滚雪球式的循环中,人们面临的往往不是数据的匮乏,而是如何从海量的数据中淘取价值,让数据为我所用。

信息革命也深刻地改变了数据可视化。首先,各种计算机软件和绘图工具的出现,使得可视化的制作门槛大大降低,人人皆可分析数据、可视化数据。可视化不再只存在于科学家的抽屉里,或是专业绘图师的作坊里,而是存在于每个人的电脑屏幕上(见图1.1.7)。伴随计算机技术的蓬勃发展,带来了可视化的百花齐放,数据可视化的形态得到了极大丰富。除了静态的图片,还出现了可以交互的可视化网页、视频动画、AR、VR、3D打印的可视化,等等。曾经被动的“读图时代”,走向了人与图的“互动时代”,数据可视化在数据挖掘、数据传达、艺术审美方面的价值得以进一步强化。

图1.1.7 信息时代的可视化