1.3 如何进行数据可视化

在进行数据可视化时,我们很容易就能联想到使用柱形图来比较分类数据,使用折线图来表达时间变化趋势。但是要真正理解为什么图表能快速地传递信息,就需要研究如何有效地构建可视化。数据可视化的关键是借助前置属性(Pre-attentive Attributes)。前置属性可以让人类的大脑以毫秒为单位获取重要信息,对于其他不相关的干扰信息选择性忽略。数据可视化中常见的前置属性如图1.2所示。

图1.2 数据可视化中常见的前置属性

我们通过一个例子来理解前置属性为何是高效的,以及它是如何应用在数据可视化中的。

请从图1.3中快速地找出数字“6”,并回答一共有多少个数字“6”?

图1.3 从数字中找到所有的数字“6”

这是一个简单的问题,但是在不借助前置属性的情况下,你需要花费不少时间查看所有的数字,并数出数字“6”的个数。如果利用前置属性使目标数字“6”做出微小改变,就能实现快速地辨别和计数。如图1.4所示,分别改变数字“6”的大小和颜色以后,寻找数字“6”就变得简单了。前置属性让数字“6”凸显出来,我们几乎可以毫不费力地将注意力集中在突出显示的数字“6”上,从而实现快速计数。

图1.4 前置属性“大小”与“颜色”应用示例

这个简单示例是前置属性“大小”和“颜色”在文本环境中的应用。前置属性可以在我们不察觉的情况下改变获取信息的方式,因此构建数据可视化的核心就是寻找正确的前置属性对数据的规律进行展现,将重要的信息第一时间传递给阅读者。

数据可视化的本质是利用前置属性,使用颜色、形状、大小、方向等作为数据的视觉编码,快速传递信息。那么数据可视化的流程是怎样的呢?一般,数据可视化分为五个阶段:准备数据、分析数据、数据清洗、选择图表类型、可视化数据。在通常情况下,可视化是针对某个问题或假设进行验证的,先对数据进行清洗、规范和分析,然后选择合适的图表展现,并发现见解。但这并不意味着问题的结束,对原本问题的解答或假设的验证,也许只是下一个问题的开始。所以可视化的整体流程并不是线性的,而是一个循环流程,如图1.5所示。

图1.5 数据可视化流程