自序

对很多人而言,数据可视化可能是一个既熟悉又陌生的词。熟悉,是因为我们每天都在和数据打交道——我们会在起床时查看天气数据,会用手机和手环记录自己的健康数据,会用外卖软件查看骑手的骑行数据,会看股市和基金的数据,还会处理公司的业务数据……在这样一个信息化的时代,数据已经成为一种生活要素,乃至是生活方式。

以上的所有场景,无一不伴随着数据可视化。如果没有数据可视化,这些数据将停留在“数字”层面。设想一下,假如外卖软件只用文字显示骑手与你的距离,却没有显示地图,你在等餐时是否会焦虑一些?如果股市软件不显示K线图、不用红绿色展示涨跌,你在投资决策时是否会困难一些?因此,通俗地说,数据可视化就是一门让用户快速、准确地理解数据信息,进而对人产生价值的学问。

不过,尽管数据可视化已经无处不在,它作为一个特定的知识“领域”,或者说一项专门的“技艺”,却未必那么深入人心,这或许正是很多人对数据可视化感到陌生的原因。比如,在谈到“这张图是怎么画出来的?”“背后的设计逻辑是什么?”“这样的可视化是一个好设计吗?”“怎样才是最优的设计”这些问题时,你可能会迟疑或犹豫。事实上,在当今社会喷薄而出的数据洪流之下,我们对数据的掌控力和解释能力,还远远没有发展到足够纯熟的境地。其中,数据可视化是一个不可忽视的环节。

本书的副标题“从数据到新知”,正包含了我对数据可视化的理解和期许。这句话的英文翻译是“From Data to Knowledge”。Data指“数据”,它是我们从世界中取样、观测得来的“原材料”,是客观的、理性的。Knowledge指“知识”,是我们懂得的道理、发现的规律,也是我们行为和判断的依据。数据和知识之间并不一定直接连通。有了数据后,我们首先需要对这些数据进行分析(如比较、取极值、算平均值等),才会产生“信息”(Information)。作为运算的结果,信息往往是事实性的。而在搜集了足够的信息后,信息之间可能会发生更深层的推理、整合,或者与我们脑中本身已经存在的信息产生对话,才会升华成“知识”(Knowledge)。

举个例子,我们在逛超市的时候,会浏览每种水果的价格,这些价格就相当于我们获得的原始数据。此时,如果我们只是匆匆一眼掠过,未加思考,那么这些数据也就只是停留在数字的层面了。相反,假设我们对价格进行对比,那么数据就会被加工为一些事实性的信息,比如“阳光玫瑰葡萄比一般的葡萄贵”“最贵的水果是榴莲”等。再进一步,如果我们在对比完价格之后,又对“贵的水果都有什么共性”进行推理,就可能得到“进口水果比本地水果售价高”这一知识,即我们对水果售价规律的一个认知。

我想,优秀的数据可视化应当有利于从数据到信息、再到知识的转化。我们所追求的可视化,应当不仅仅是把数据画出来,而是帮助挖掘和彰显数据中的价值。如何让数据变得更清晰、更有效、更能发挥价值?这将是贯穿全文的出发点,也构成了本书的基本底色。

在具体的章节设置和行文上,本书则受到了一些现实需求的驱使,在此也提前做一个说明。

其一,尽管数据可视化的需求很大,但用什么工具来制作可视化,如何成功地把图表画出来,依然是一个比较广泛的痛点。因此,本书提供了详细的案例教学(主要在第4章),从原始数据开始,一步步演示从数据到可视化的完整分析、绘图流程。同时,在选取案例时,尽量兼顾了不同的使用场景、数据类型,以及数据分析的需求。

当然,这一痛点之所以存在,还有一个重要原因,那就是数据可视化的跨领域特征非常明显,既与数据分析有关,又与设计、开发有关。相应地,数据可视化工具的种类非常繁多、用户形态也非常多样,既可能是办公人员,也可能是数据分析师、程序员、设计师、新闻记者。不同类型的用户,擅长的技能不同,习惯使用的工具也不同。这使得我们在做工具教学的时候,常常难以覆盖所有人的需求。因此,为了让更多的读者受益于本书的教学,本书在介绍可视化工具时,为这些工具设立了优先级:优先介绍的是大部分人最熟悉的办公软件(如Excel),其次是零代码、好上手的在线工具(如Rawgraphs),接着是设计类工具(如Adobe ilIustrator),最后是编程类工具(如Python、D3.js)。换言之,当低门槛方法存在时,就优先介绍低门槛方法。当免费工具存在时,就优先介绍免费工具。

因此,本书并不是一本专门讲解某一个工具/软件用法的工具书。如果你希望深入地掌握某个特定工具/软件(如Tableau、Python、D3.js、Processing等),阅读专门的工具教程是不错的选择,市面上也有诸多优秀的图书。

而本书的重点,更多偏重于数据可视化的设计原理。尽管也会涉及到可视化的“技术实现”,我认为根本的还是需要掌握“技”背后的“道”。一个掌握了很多工具的人,不一定能创作出真正好的可视化作品。相反,一个懂得判断什么是好的可视化的人,在使用工具时却能更聪明,也更审慎。因此,本书会较多地讲解可视化图表背后的原理、图表的类型,以及图表的设计要点,帮助读者理解可视化的底层逻辑,从而做到举一反三。在案例教学中,我也将对每一个步骤进行解释和阐发,即,为什么这一步骤是必要的,从而让读者更深入地理解可视化设计的迭代过程。

“技术焦虑”是可视化初学者常见的一大困惑。“我不会用设计软件”“我不会编程”,常常变成阻碍其学习可视化的绊脚石。因此,我也希望通过本书缓解一下读者的这类焦虑:可视化工具本身不是目的,学会所谓“高端”的工具也不是可视化的本质。找到最适合、最高效的工具,实现数据分析和价值挖掘,才是我们最终的目的。如果你可以用一些低门槛的工具就达成目的,为什么不先去试试呢?

其二,可视化是科学与艺术的结合体。艺术性的存在让可视化设计没有绝对的公式可言,并且有的时候非常依赖经验、感性和灵感。因此,根据我的观察,翻看设计案例是可视化创作中一个非常常见的需求。通过案例,你可以了解到某种图表的具体用法、判断它适合哪类数据集,还能学习他人的视觉表达技术和创意。当然,通过反面案例,你也可以避免自己重蹈覆辙。尤其是初学者,多看、多模仿是很好的入门策略。因此,本书在讲解过程中纳入了较多优秀的数据可视化案例,以期对书本内容有更形象、生动的阐发。希望阅读本书的你,也能有脑洞大开的感受。

好了,让我们一起踏上这段新奇的可视化之旅吧!

作者