1.2.1 大数据时代背景

在互联网诞生之前,人类存储信息主要以文字与图片为主,图1.4展示了这个时期信息存储方式的演变。这个时期信息存储的主要特点是个人被动地接收中心节点整理好的信息,数据量有限,更新频率低。

互联网诞生之后,我们从数据类型和数据量都有限的传统媒体时代,过渡到数据类型丰富、数据量爆炸的多媒体时代。我们每天打开App、拍照上传、发帖评论、浏览网页、播放视频、点击广告、搜索信息、收藏购买、在线支付、即时通信,都在主动制造新的数据,并且这些数据会被记录并传送到中心节点,数据量庞大,更新频率高。

图1.4 信息存储方式的演变

《大数据时代:生活、工作与思维的大变革》一书中指出,在2000年,数字存储信息仍只占全球数据量的1/4,另外3/4的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。但是,随着互联网的迅速扩张,数字信息的增加速度越来越快。该书中举了几个对比非常强烈的例子。

以天文学为例,2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动时,位于新墨西哥州的望远镜在短短几周内收集的数据,已经比天文学历史上总共收集的数据还要多。

谷歌公司在2012年每天要处理超过24PB的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。

杰姆·格雷(Jim Gray)基于这个规律,提出了数据领域的“新摩尔定律”,即人类有史以来的数据总量,每18个月就会翻一番。

大数据时代给我们带来的最大改变是我们不再热衷于寻找因果关系,很多决策开始基于数据和分析做出,而非基于经验和直觉。

图像识别领域早期的MNIST数据集和CIFAR数据集,都只有60000个样本,发展到ImageNet数据集,其包括1000万个以上的样本,数据集规模增长了三个数量级。大型数据集的诞生,使得很多机器学习模型有了足够多的数据来训练泛化性能足够好的模型。

因此,我们在训练机器学习模型时,有很大一部分工作都与数据有关,包括数据的获取、整理和标注等。接下来我们通过数据获取和整理来介绍典型的工作流程。