1.1 大数据与数学

最早提出大数据概念的是全球知名咨询公司麦肯锡。该公司称:“数据已经渗透到当今的每一个行业和业务职能领域,成了重要的生产因素。”人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。实则,大数据在物理学、生物学、环境生态学等学科领域,以及在军事、金融、通信等行业已有些时日,只是由于近年来的互联网和信息行业采用了大数据技术,使得这一名词的曝光度有所提高,变得火热起来。本节通过介绍大数据的定义与数学各分支在大数据中的作用,阐述大数据与数学的关系。

1.1.1 大数据的定义

对于“大数据”一词,多数人认为是一个新兴词汇,实则不然,早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据赞颂为“第三次浪潮的华彩乐章”。大数据一词大约是从2009年开始被引入公众视线的。

1. 大数据的特征

虽然“大数据”这一个词汇已经诞生了近40年,但是目前为止并没有一个明确的定义。维克托·迈尔·舍恩伯格在《大数据时代》一书中提到了大数据应该具备以下3种特征。

(1)不是随机样本,而是全体数据。过去,因为记录、存储和分析数据的工具不够好,为了让分析变得简单,人们只能收集或者抽取尽量少的数据进行分析。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是处理的数据量已经大大增加,而且未来会越来越多。在条件允许的情况下,使用全体数据往往能够得到一个更加准确、更接近实际的结果。

(2)不具有精确性,而具有混杂性。执迷于精确性是信息缺乏时代和模拟时代的产物。大约只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下约95%的非结构化数据就无法被利用。所以只有接受不精确性,才能从数据中获取更大的价值。需要特别注意的是,不精确性并非大数据固有的,它只是测量、记录和交流数据的一个缺陷。因为拥有更大的数据量所带来的商业利益远远超过增加一点精确性所带来的,所以通常不会通过大量增加成本来提升数据的精确性。

(3)不是因果关系,而是相关关系。因果关系强调原因和结果必须同时具有必然的联系,即二者的关系属于引起和被引起的关系。而相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。

2. 大数据的定义

现阶段,大数据领域比较通用的大数据定义是基于图1-1的5V定义,其中,每个V的具体含义如下。

图1-1 大数据5V定义示意图

(1)Volume:数据量大,即采集、存储和计算的数据量都非常大。真正大数据的起始计量单位往往是TB(1024GB)、PB(1024TB)。

(2)Velocity:数据增长速度快,处理速度也快,时效性要求高。比如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法要求尽可能实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

(3)Variety:种类和来源多样化。种类上包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等。数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集,也可以由人类手工记录。

(4)Value:数据价值密度相对较低。随着互联网及物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法来挖掘数据的价值,是大数据时代最需要解决的问题。

(5)Veracity:数的准确性和可信赖度高,即数据的质量高据。数据本身如果是虚假的,那么它就失去了存在的意义,因为任何通过虚假数据得出的结论都可能是错误的,甚至是相反的。

1.1.2 数学在大数据领域的作用

信息化时代,大数据在各领域中发挥着越来越重要的作用。人们使用大数据技术从海量数据中挖掘信息,发现规律,探索潜在价值。在大数据的研究和应用中,数学是坚实的理论基础。在数据预处理、分析与建模、模型评价与优化等过程中,数学方法扮演着至关重要的角色。

1. 微积分

从17世纪开始,随着社会的进步和生产力的发展,以及航海、天文、矿山建设等越来越多的课题需要解决,数学也开始研究变化的量,进入了“变量数学”时代,微积分也由此诞生。通过微积分可以描述运动的事物,描述一种变化的过程。由于微积分是研究变化规律的方法,所以只要是与变化、运动有关的研究,都或多或少地与微积分存在联系,都需要运用微积分的基本思想和方法。可以说,微积分的创立极大地推动了社会的进步。

微积分是整个近代数学的基础,有了微积分,才有了真正意义上的近代数学。统计学中的概率论部分就是建立在微积分的基础之上的。比如,在函数关系的对应下,随机事件先是被抽象为集合,继而被抽象为实数,随着样本空间被抽象为数集,概率相应地由集函数约化为实函数。因此,微积分中有关函数的种种思想和方法都可以畅通无阻地进入概率论领域。随机变量的数字特征、概率密度与分布函数的关系、连续型随机变量的计算等都是微积分现有成果的直接应用。

微积分的基础是极限论,在概率论中运用广泛,如分布函数的性质、大数定律、中心极限定理等。同时,在机器学习中,非常重要的各类最优化算法本质上就是在一定的约束条件下求一个函数的最值,这一概念和微积分基础中的极限论息息相关。

2. 概率论与数理统计

概率论与数理统计是研究随机现象统计规律的重要学科,是数学领域的重要组成部分。概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。数理统计是伴随着概率论的发展而发展起来的另一个数学分支,它研究如何有效收集、整理和分析受随机因素影响的数据,并由此作出推断或预测,为采取某种决策和行动提供依据或建议。

大数据的分析与挖掘等工作,从数据预处理开始,至建模得出结论,都有概率论与数理统计的身影。相关性分析、假设检验及方差分析等数理统计方法为大数据分析前期的数据探索、数据预处理等提供了理论与方法支持。朴素贝叶斯、Apriori关联规则等算法的理论基础就是概率论与数理统计。掌握扎实的概率论与数理统计知识,能够帮助人们更加深入地理解算法,并解释大数据分析结果,从而为决策提供依据。此外,在得出分析结果以后,研究者还需要通过概率论与数理统计相关知识,以绘制图形的形式来展示结果,以方便其他人理解。

3. 线性代数

线性代数与大数据技术开发的关系很密切。线性代数领域的向量、矩阵、正交矩阵、秩、特征值与特征向量等概念在大数据分析、建模中发挥着巨大的作用。

在大数据中,许多应用场景的分析对象都可以抽象表示为矩阵。例如,大量Web页面及其关系、微博用户及其关系、文本数据中的长文本与词汇的关系等都可以用矩阵表示。Web页面及其关系用矩阵表示时,矩阵元素就代表一个页面a与另一个页面b的关系,这种关系可以是指向关系,例如,1表示a和b之间有超链接,0表示a和b之间没有超链接。著名的PageRank算法就是基于这种矩阵进行页面重要性的量化,并证明其收敛性的。

以矩阵为基础的各种运算,如矩阵分解,是分析大数据、提取特征的一种途径,因为矩阵代表了某种变换或映射,所以分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。其中,特征分解(Eigen Decomposition)和奇异值分解(Singular Value Decomposition)等在大数据分析中的应用十分广泛。

4. 数值计算

数值计算是求解工程实际问题的重要方法之一,并且随着工程问题的规模不断增大,相比于理论研究和实验研究,其实用价值更大。在大数据时代的背景下,数据分析、数据挖掘、机器学习等算法中常见的插值、数值逼近、非线性方程求解等,都属于数值计算的范畴。

从更高的层面看,数值计算指有效使用数字计算机求数学问题的近似解的方法与过程,其几乎涵盖了所有涉及复杂数学运算的计算机程序。数值计算主要研究如何利用计算机更好地解决各种数学问题,包括连续系统离散化和离散型方程求解,并考虑误差、收敛性和稳定性等问题。

5. 多元统计分析

多元统计分析简称多元分析,是从经典统计学中发展起来的一个分支,是数理统计学中的一个重要分支学科,是一种综合分析方法。20世纪30年代,R.A.费希尔、H.霍特林、许宝碌及S.N.罗伊等人做了一系列奠基性的工作,使多元分析在理论上得到迅速发展。20世纪50年代中期,随着电子计算机的发展和普及,多元分析在地质、气象、生物、医学、图像处理及经济分析等领域得到了广泛的应用,同时也促进了理论的发展。

多元分析在大数据分析中有非常广泛的应用,能够在多个对象和多个指标互相关联的情况下分析它们的统计规律。多元分析的主要方法包括回归分析、判别分析、聚类分析、主成分分析(Principal Component Analysis,PCA)、因子分析及典型相关分析等。这些分析方法在大数据领域有着非常广泛的应用。其中,回归分析中的一元或多元线性回归可用于预测连续型数据,如股票价格预测和违约损失率预测等;判别分析与回归分析中的Logistic回归可用于预测类别型数据,这些数据通常都是二元数据,如欺诈与否、流失与否、信用好坏等;聚类分析是在不知道类标签的情况下,将数据划分成有意义的类,如客户细分等;主成分分析与因子分析可用少量的变量(因子)来综合反映原始变量(因子)的主要信息,在大数据分析中常用于数据的降维;典型相关分析可以快捷、高效地发现事物间的内在联系,如某种传染病与自然环境、社会环境的相关性等。