- 大话数据科学:大数据与机器学习实战(基于R语言)
- 陈文贤
- 1930字
- 2020-11-23 14:43:50
1.3 大数据分析模型的分类
我们要从各个角度或面向,站在不同的高度,去看大数据分析模型分类。
1.3.1 后设模型
后设分析(Meta-analysis,或译作元分析、整合分析、综合分析、荟萃分析)是指将多个研究结果整合在一起的分析方法。希腊语μετά(metá)的意思是“之后”或“之上”。后设模型是在模型之上,关于模型的模型,超越模型的模型。
先来理解一下本节相关的词汇。
- 形而上学(Metaphysics):超越自然(physics希腊文)之上,中译取自易经;“形而上者谓之道,形而下者谓之器”。道,形而上的本体,超越一切世间存在。
- 元数据(Meta data):关于数据的数据、超越数据的数据。
- 元知识(Meta knowledge):关于知识的知识、超越知识的知识。
- 元语言(Meta language):用来描述语言的语言。
- 后设文法(Meta grammar):用来描述文法的文法。
- 后设理论(Meta theory):用来解释理论的理论。
- 后设认知(Meta cognitive):认知自己的认知。
- 后设学习(Meta learning):整合学习的学习,第12章介绍的集成学习是后设学习。
- 后设模型(Meta model):关于模型的模型,本节是机器学习模型的后设模型。
什么是后设大数据(Meta big data)?后设人工智能(Meta artificial intelligent )?
一个系统的模型不是唯一的,模型没有标准答案。后设模型更不是唯一的,当然更是没有标准答案的。如图1-17所示。
图1-17 模型与后设模型
1.3.2 关系与因果
哈佛大学教授Christensen认为:建立管理理论可以分为三个阶段,第一个阶段是界定想了解的事物或现象;第二个阶段是进行分类,分类是为了凸显复杂现象中具有重要意义的差异性,分类的结果并非唯一,正确的分类是发展有效理论的关键,例如管理学常用的2×2分类模型 、BCG模型;第三个阶段是提出理论模型,指出什么原因会导致什么分类结果,或者什么分类现象应该做什么,就是因果或关系。
所以,管理学的分析主要就是:分类、关系、因果。
有一个社会心理学的游戏,是给你三张图片:猴子、熊猫和香蕉,问哪两张图片有关?这个社会心理学的研究是比对亚洲人和西方人的思维方法,亚洲人大多会回答猴子与香蕉有关,西方人多数会认为猴子和熊猫有关。猴子与香蕉是因果关系的思维(食物),猴子和熊猫是分类关系的思维(动物)。这个研究也是有分类:亚洲人和西方人;有因果:思维方法。
大数据的数据挖掘方法主要也是分类、关系、因果,可以归类成:关联分析、聚类分析、分类分析、回归分析。
1.3.3 基于因果关系的统计学分类
我们将统计学方法基于因果关系,分成以下三类。
(1)无因果或关系:只有一个变量(单变量)或样本空间的一个事件概率,例如,描述统计、一个总体一个变量的参数估计和检验。
(2)有关系无因果:两个变量的相关系数,例如概率理论中两个事件的条件概率、独立、非独立关系,分类数据的独立性检验,指数与时间序列时间的因素分析。
(3)有关系因果:两个总体的参数估计与检验,方差分析,回归分析。
如图1-18所示是统计学方法的分类。上述统计学方法,请见《大话统计学》。
图1-18 统计学方法的分类
1.3.4 基于因果关系的大数据分类
大数据分析或数据挖掘模型都会提到监督式与非监督式。监督式是有因果关系,非监督式是有关系无因果。
大数据分析模型的分类:①非监督式(因果或关系);②模型算法;③数据尺度;④法则分类;⑤评估准则等。大数据分析模型分类如图1-19和表1-3所示。
图1-19 大数据分析方法的分类
表1-3 大数据方法的分类
表1-3是一个阶层式的分类表,每个阶层是属于上一个阶层的属性。例如,随机森林算法是决策树算法的一种,是一种分类模型,是一种监督式(因果预测式)的数据挖掘分析,数据类型是离散型或连续型,有目标函数(卷标)是分类尺度,算法法则是统计法,评估准则是准确度。
1.3.5 基于数据类型的分类
如图1-20所示是基于数据类型的分类,()中的数字表示是本书第几章。
图1-20 基于数据类型的大数据分析方法分类
如图1-21所示是大数据分析应用流程图。
图1-21 大数据分析应用流程图
如表1-4所示是不同数据类型对大数据分析方法的分类。
表1-4 数据类型对大数据分析方法的分类
1.3.6 基于测量的分类
机器学习基于测量的分类有以下几种。
(1)基于概率测量(probability based learning):
关联分析,贝叶斯分类,EM聚类法。
(2)基于相似(距离)测量(similarity based learning):
聚类分析(距离或相似度),K-近邻法。
(3)基于信息(熵)测量(information based learning):
决策树,集成学习。
(4)基于误差测量(error based learning):
回归(最小二乘法),时间序列。
(5)基于统计测量(statistics based learning):
主成分分析(相关系数),分类的组合分析(集成法)。
(6)基于空间(几何)测量(space based learning):
支持向量机(超平面)。
(7)基于生物测量(biology based learning):
神经网络,遗传算法。
1.3.7 数据科学模型的其他分类
数据科学模型还有其他分类,分散在本书多个位置:图1-22是学习模型与数据科学,图6-10模型选择的复杂度,6.4.1节和8.1.3节的参数学习器和非参数学习器,8.1.1节的“认真学习器与懒惰学习器”,还有图8-3基于实例或属性的学习模型,图11-2监督式学习比较。
图1-22 学习模型与数据科学