1.1 什么是大数据

有观点认为,人类过去经历了三次工业化技术革命,从蒸汽机时代,到电力时代,再到早期的计算机时代,每一次革命都释放了巨大的生产力,开创了工业的转型和经济的增长时期。人们都说,现在人类正在经历第四次技术革命,数据就是新的源动力。

的确,我们已经看到了海量数据的爆炸式增长景观,特别是来自云端的数据。云端提供了前所未有的计算能力和数据存储能力。这表明,我们已身处“大数据”时代。

但是,关于大数据的确切定义,目前尚未获得统一、公认的说法。

IBM用3V(Volume、Variety、Velocity)来描述大数据所拥有的特点。

大容量(Volume),是指数据体量巨大。

多形式(Variety),是从数据的类型角度来看的,数据的存在形式从过去的以结构化数据为主转换为形式多种多样,既包含传统的结构化数据,也包含可便于搜索的半结构化数据,如文本数据,还包含更多的非结构化数据,如图片、音频和视频数据。

高速率(Velocity)则是从数据产生效率的实时性角度来衡量的,数据以非常高的速率产生,比如大量传感器生成的实时数据。

之后,IBM又在3V的基础上,增加了Value这个维度,即价值密度低的数据称为大数据,意指大数据伴随着从低价值的原始数据中进行深度挖掘和计算,从海量且形式各异的数据源中抽取出富含价值的信息。

由此可以看出,从具备4V特性的大量数据中挖掘高价值知识,是各界对于大数据的一个共识。

由于数据量的爆炸式增长,传统的数据管理模式及工具已不能高效地存储和处理如此规模的数据。新时代呼唤新思维、新技术。从维克多·迈尔·舍恩伯格所著的《大数据时代》中,可以看到大数据时代的思维变革。

(1)不是随机样本,而是全体数据。

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

(2)不是精确性,而是混杂性。

数据多比少好,更多数据比算法系统更智能还要重要。社会从“大数据”中所能得到的益处,并非来自运行更快的芯片或更好的算法,而是来自更多的数据。大数据的简单算法比小数据的复杂算法更有效。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。那些精确的系统试图让我们接受一个贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上,现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

(3)不是因果关系,而是相关关系。

在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。通过给我们找到一个现象的良好关联物,相关关系可以帮助我们捕捉现在和预测未来。

在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。

大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。