1.3 大数据分析模型的分类_大话数据科学：大数据与机器学习实战（基于R语言）-QQ阅读男生玄幻网

书名：大话数据科学：大数据与机器学习实战（基于R语言）
作者名：陈文贤
本章字数：1930字
更新时间：2025-02-24 19:31:17

1.3　大数据分析模型的分类

我们要从各个角度或面向，站在不同的高度，去看大数据分析模型分类。

1.3.1　后设模型

后设分析（Meta-analysis，或译作元分析、整合分析、综合分析、荟萃分析）是指将多个研究结果整合在一起的分析方法。希腊语μετά（metá）的意思是“之后”或“之上”。后设模型是在模型之上，关于模型的模型，超越模型的模型。

先来理解一下本节相关的词汇。

　形而上学（Metaphysics）：超越自然（physics希腊文）之上，中译取自易经；“形而上者谓之道，形而下者谓之器”。道，形而上的本体，超越一切世间存在。
　元数据（Meta data）：关于数据的数据、超越数据的数据。
　元知识（Meta knowledge）：关于知识的知识、超越知识的知识。
　元语言（Meta language）：用来描述语言的语言。
　后设文法（Meta grammar）：用来描述文法的文法。
　后设理论（Meta theory）：用来解释理论的理论。
　后设认知（Meta cognitive）：认知自己的认知。
　后设学习（Meta learning）：整合学习的学习，第12章介绍的集成学习是后设学习。
　后设模型（Meta model）：关于模型的模型，本节是机器学习模型的后设模型。

什么是后设大数据（Meta big data）?后设人工智能（Meta artificial intelligent ）?

一个系统的模型不是唯一的，模型没有标准答案。后设模型更不是唯一的，当然更是没有标准答案的。如图1-17所示。

图1-17　模型与后设模型

1.3.2　关系与因果

哈佛大学教授Christensen认为：建立管理理论可以分为三个阶段，第一个阶段是界定想了解的事物或现象；第二个阶段是进行分类，分类是为了凸显复杂现象中具有重要意义的差异性，分类的结果并非唯一，正确的分类是发展有效理论的关键，例如管理学常用的2×2分类模型、BCG模型；第三个阶段是提出理论模型，指出什么原因会导致什么分类结果，或者什么分类现象应该做什么，就是因果或关系。

所以，管理学的分析主要就是：分类、关系、因果。

有一个社会心理学的游戏，是给你三张图片：猴子、熊猫和香蕉，问哪两张图片有关？这个社会心理学的研究是比对亚洲人和西方人的思维方法，亚洲人大多会回答猴子与香蕉有关，西方人多数会认为猴子和熊猫有关。猴子与香蕉是因果关系的思维（食物），猴子和熊猫是分类关系的思维（动物）。这个研究也是有分类：亚洲人和西方人；有因果：思维方法。

大数据的数据挖掘方法主要也是分类、关系、因果，可以归类成：关联分析、聚类分析、分类分析、回归分析。

1.3.3　基于因果关系的统计学分类

我们将统计学方法基于因果关系，分成以下三类。

（1）无因果或关系：只有一个变量（单变量）或样本空间的一个事件概率，例如，描述统计、一个总体一个变量的参数估计和检验。

（2）有关系无因果：两个变量的相关系数，例如概率理论中两个事件的条件概率、独立、非独立关系，分类数据的独立性检验，指数与时间序列时间的因素分析。

（3）有关系因果：两个总体的参数估计与检验，方差分析，回归分析。

如图1-18所示是统计学方法的分类。上述统计学方法，请见《大话统计学》。

图1-18　统计学方法的分类

1.3.4　基于因果关系的大数据分类

大数据分析或数据挖掘模型都会提到监督式与非监督式。监督式是有因果关系，非监督式是有关系无因果。

大数据分析模型的分类：①非监督式（因果或关系）；②模型算法；③数据尺度；④法则分类；⑤评估准则等。大数据分析模型分类如图1-19和表1-3所示。

图1-19　大数据分析方法的分类

表1-3　大数据方法的分类

表1-3是一个阶层式的分类表，每个阶层是属于上一个阶层的属性。例如，随机森林算法是决策树算法的一种，是一种分类模型，是一种监督式（因果预测式）的数据挖掘分析，数据类型是离散型或连续型，有目标函数（卷标）是分类尺度，算法法则是统计法，评估准则是准确度。

1.3.5　基于数据类型的分类

如图1-20所示是基于数据类型的分类，（）中的数字表示是本书第几章。

图1-20　基于数据类型的大数据分析方法分类

如图1-21所示是大数据分析应用流程图。

图1-21　大数据分析应用流程图

如表1-4所示是不同数据类型对大数据分析方法的分类。

表1-4　数据类型对大数据分析方法的分类

1.3.6　基于测量的分类

机器学习基于测量的分类有以下几种。

（1）基于概率测量（probability based learning）：

关联分析，贝叶斯分类，EM聚类法。

（2）基于相似（距离）测量（similarity based learning）：

聚类分析（距离或相似度），K-近邻法。

（3）基于信息（熵）测量（information based learning）：

决策树，集成学习。

（4）基于误差测量（error based learning）：

回归（最小二乘法），时间序列。

（5）基于统计测量（statistics based learning）：

主成分分析（相关系数），分类的组合分析（集成法）。

（6）基于空间（几何）测量（space based learning）：

支持向量机（超平面）。

（7）基于生物测量（biology based learning）：

神经网络，遗传算法。

1.3.7　数据科学模型的其他分类

数据科学模型还有其他分类，分散在本书多个位置：图1-22是学习模型与数据科学，图6-10模型选择的复杂度，6.4.1节和8.1.3节的参数学习器和非参数学习器，8.1.1节的“认真学习器与懒惰学习器”，还有图8-3基于实例或属性的学习模型，图11-2监督式学习比较。

图1-22　学习模型与数据科学