- 高维聚类知识发现关键技术研究及应用
- 陈建斌著
- 1597字
- 2020-08-28 10:55:16
1.1.2 知识发现和KDD
知识发现是从数据集中抽取和精化新的模式的过程。知识发现的范围非常广泛,可以是经济、工业、农业、军事、社会、商业、科学的数据或卫星观测得到的数据,数据的形态有数字、符号、图形、图像、声音等。数据组织方式也各不相同,可以是结构、半结构或非结构的,知识发现的结果可以表示为各种形式,包括规则、法则、科学规律、方程或概念网等。
目前,关系型数据库应用广泛,并且具有统一的组织结构、一体化的查询语言、关系之间及属性之间具有平等性等优点,因此基于数据库的知识发现(Knowledge Dissovery in Database,KDD)是知识发现研究的主体和热点。1989 年,Fayyad 定义KDD 为“从数据集中识别出有效的、新颖的、潜在有用的,以及最终可以理解的模式的非平凡过程”。在此定义中,涉及几个需要进一步解释的概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有效性”和“最终可理解性”。数据集是一组事实 F(如关系数据库中的记录)。模式是一个用语言 L 来表示的一个表达式 E,它可用来描述数据集 F 的某个子集 FE,E作为一个模式要求它比对数据子集 FE 的枚举要简单(所用的描述信息量要少)。过程在 KDD 中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精。该过程要求是非平凡的,即要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的,不同于以往的知识或模式。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。
由于知识发现是一门受到来自不同领域的研究者关注的交叉性学科,因此导致了很多术语名称。除了 KDD 外,主要还有如下若干种称法:“数据挖掘”(Data Mining),“知识抽取”(Information Extraction),“信息发现”(Information Discovery),“智能数据分析”(Intelligent Data Analysis),“探索式数据分析”(Exploratory Data Analysis)和“信息收获”(Information Harvesting)等。其中最常用的是“知识发现”和“数据挖掘”。
数据挖掘与知识发现是存在交叉的两个概念。对这两个概念之间的关系,流行的有两种观点:一种观点认为,数据挖掘与知识发现是等同的概念,只不过在不同的领域叫法不同而已。在科研领域,知识发现使用较多,在工程应用领域则多称之为数据挖掘;另一种观点认为数据挖掘是知识发现的一个阶段,而且是核心阶段。该观点给出的定义是:知识发现,就是从大型数据库数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息。业界更倾向于第二种观点。从知识产生的过程角度看待知识发现和数据挖掘,得出以下结论。
(1)知识发现是把低级别的数据转化为高级别数据的过程。所谓高级别数据,是具有特殊含义的数据。在工程应用中,根据不同的使用阶段和价值,又细分为信息和知识。信息可被理解为有特殊意义的数据;知识则表达为在特定应用领域,通过使用有价值的信息而在人脑中形成的、具有概括和总结特性的认识。知识可表示为概念(Concepts),规则(Rules),规律(Regulations),模式(Patterns)等形式。从知识发现的整个过程来看(图 1.1),数据挖掘是知识发现实现从数据到信息和知识转变的关键一步,是从大量数据中提取可信的、新颖的、有效的模式的高级处理过程。
图1.1 知识发现的过程
(2)如果把知识发现理解为一个过程或系统,数据挖掘是这一过程或系统的一个可自动执行的工具。挖掘算法是数据挖掘重要的组成部分。为解决特定的商业问题,一种或多种算法需要被选择、编译,在适于挖掘的数据环境下实施挖掘任务。从图 1.1看出,知识发现是需要人工参与的多环节过程。
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。提取的信息和知识必须具备可信、新颖、有效和易于理解这四个特点。