3.3.2 可视化的一般流程
科学可视化和信息可视化均设计了可视化流程的参考体系结构模型,并被广泛应用于数据可视化系统中。图3-11给出了科学可视化的通用可视化流水线。它描述了从数据空间到可视空间的映射,包含串行处理数据的各个阶段:数据分析、数据滤波、数据的可视映射和绘制。这个流水线实际上是数据处理和图形绘制的嵌套组合。
图3-11 科学可视化的可视化流水线
在此基础上,C. Stolte等人提出了数据可视化循环模型,如图3-12所示。
图3-12 C. Stolte等人提出的数据可视化循环模型
可视化分析中所采取的具体步骤会随着数据集合项目的不同而不同,但在探索数据可视化时,总体而言应该考虑以下4点:拥有什么数据?关于数据想了解什么?应该使用哪种可视化方式?用户能看见什么,有什么意义?
从数据到知识有两种途径:交互的可视化方法和自动的数据挖掘方法。两种途径的中间结果分别是对数据的交互可视化结果和从数据中提炼的数据模型。用户既可以对可视化结果进行交互的修正,也可以调节参数以修正模型。具体而言,数据可视化是对数据的透彻理解、深入分析和综合运用,主要包括数据获取、数据处理、可视化模式和可视化应用4个环节。
1.数据获取
数据可视化的基础是数据,所以首先需要明确自己拥有的数据。在进行可视化展示时通常获得需要的数据是最困难、耗时最多的一步。数据获取的形式多种多样,大致可分为主动获取和被动获取两种方式。主动数据获取是以明确的数据需求为目的,利用相关技术手段主动采集需要的数据,如卫星影像、感知监控设备和测绘工具等;被动数据获取是以数据平台为基础,由数据平台的运营者和活动者提供数据来源,如电子商务、社交网络、网络论坛等。
2.数据处理
数据处理是指对原始数据进行数据预处理、质量分析和计算统计等步骤,目标是保证数据的完备性、准确性、一致性和可用性。对于数据可视化而言,数据处理的关键是数据表示和变换。
为了进行有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。通常这些结构存在于数据本身,需要研究有效的数据提炼或简化方法以最大限度地保持信息和知识的内涵及相应的上下文。数据具有不确定性,因为每个数据点都是对某一瞬间所发生的事情的快速捕捉,有效表示海量数据的主要挑战在于采用具有可伸缩性和扩展性的方法,以便忠实地保持数据的特性和内容。此外,将不同类型、不同来源的信息合成为一个统一的表示,使得数据分析人员能及时聚焦于数据的本质,也是数据处理的研究重点。
3.可视化模式
可视化模式是数据的一种特殊展现形式。当前,常见的数据可视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取在很大程度上决定了数据可视化方案。
将数据以一种直观、容易理解和操纵的方式呈现给用户,需要基于可视化模式将数据转换为可视表示并呈现给用户。数据可视化向用户传播信息,而同一个数据集可能对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。决定某个视觉编码是否合适的因素包括感知与认知系统的特性、数据本身的属性和目标任务等。大量的数据采集通常是以流的形式实时获取的,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。这不仅要求可视化结果有一定的时间连贯性,还要求可视化方法足够高效以便给出实时反馈。因此,数据可视化不仅需要研究新的软件算法,还需要强大的计算平台(如分布式计算或云计算)、显示平台(如一亿像素显示器或大屏幕拼接)和交互模式(如体感交互、可穿戴式交互)。
4.可视化应用
数据可视化应用主要根据用户的主观需求来展开,最主要的应用形式是直观地展示庞杂混乱的数据,进而通过观察和人脑分析进行数据推理和认知,辅助人们发现新知识或得到新结论。对数据进行可视化和分析的最终目的是完成目标任务。有些目标任务可明确定义,有些任务则更为宽泛或一般化。目标任务可分成3类:生成假设、验证假设和视觉呈现。
数据可视化可用于从数据中探索新的假设,也可以证实相关假设与数据是否吻合,还可以帮助数据专家向公众展示其中的信息。交互是通过可视的手段辅助分析决策的直接推动力。便捷、友好的交互式可视化界面可以帮助人们加强与数据的交互,辅助人们完成对数据的迭代计算,通过若干步骤的数据计算实验产生系列化的可视化成果。有关人机交互的探索已经持续很长时间,但智能、适用于海量数据可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法不仅涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。