1.4.6 与数据分析和数据挖掘的关系

数据分析是统计分析的扩展,指用数据统计、数值计算、信息处理等方法,采用已知的模型分析数据,计算与数据匹配的模型参数。常规的数据分析包含3步:第一步,探索性数据分析,通过数据拟合、特征计算和作图造表等手段探索规律性的可能形式,确定相适应的数据模型和数值解法;第二步,模型选定分析,在探索性分析的基础上计算若干类模型,通过进一步分析挑选模型;第三步,推断分析,使用数理统计等方法推断和评估选定模型的可靠性和精确度。不同的数据分析任务各不相同。例如,关系图分析涉及的任务包括值检索、过滤、衍生值计算、极值的获取、排序、范围确定、异常检测、分布描述、聚类、相关性。

数据挖掘是指从数据中计算适合的数据模型,分析和挖掘大量数据背后的知识。它的目标是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、未知的、潜在有用的信息和知识。数据挖掘可以使用演绎或归纳的方法。数据挖掘可发现反映同类事物共同性质的广义型知识,反映事物各方面特征的特征型知识,反映不同事物之间属性差别的差异型知识,反映事物和其他事物之间依赖或关联的关联型知识,根据历史和当前数据推测未来数据的预测型知识,揭示事物偏离常规出现异常现象的偏离型知识。

数据可视化和数据分析与数据挖掘的目标都是从数据中获取信息与知识,但手段不同。数据可视化将数据呈现为用户易于感知的图形符号,让用户交互地理解数据背后的本质;而数据分析与数据挖掘通过计算机自动或半自动地获取数据隐藏的知识,并将获取的知识直接提交给用户。数据挖掘领域已注意到可视化的重要性,提出了可视数据挖掘的方法,其核心是将原始数据和数据挖掘的结果用可视化方法予以呈现。这种方法糅合了数据可视化的思想,但仍然是利用机器智能挖掘数据,与数据可视化基于视觉化思考的理念不同。也可以说,数据挖掘与数据可视化是处理和分析数据的两种思路。数据可视化更善于探索性数据的分析,例如,在用户不知道数据中包含什么样的信息和知识,对数据模型没有一个预先的探索假设时,探寻数据中到底存在何种有意义的信息。