第三节 大数据的特点

舍恩伯格在《大数据时代》中认为大数据对信息时代有三大转变:数据分析将依赖于全样本,而不是随机样本;数据允许混杂性,而不是精确性;追求相关关系,而不是因果关系。这三方面的转变将改变我们理解和组建社会的方法,互联网的普及使网民行为多样化,通过互联网产生的数据日渐增多,既包括结构化的数字信息,也包括非结构化的图片、文本、视频、音频等信息,因此,我们需要了解大数据时代下这些信息的特点(见图2-4)。

图2-4 大数据特点

(1)数据量大(Volume)。大数据时代一个重要的特点就是数据体量巨大,机器数据、网络数据、人与人之间的社交数据等至少是以P(1000个T)、E(100万个T)为单位的,甚至是Z(10亿个T)级别。以苹果公司为例,为了存储巨大的iMessage、iCloud、iOS应用、iBooks等客户数据,以及iPhone、平板电脑等设备上的照片、视频、文档和App,苹果在全球建立了近40座数据中心,每座数据中心投资多达数亿甚至十几亿美元。2017年6月1日,中国《网络安全法》正式实施,新法要求基础设施运营者在中国境内运营中收集和产生的个人信息和重要数据应存储在境内,而此前,许多外企为了管理方便,一般将全球数据统一存储于海外的数据中心。2017年7月,苹果公司决定在贵州设立第一个中国数据中心,中国用户数据将存储在这座数据中心中,苹果公司副总裁丽萨·杰克逊表示:“中国的用户喜欢使用iCloud来安全存储照片、视频、文档和应用程序,并在所有设备上保持同步更新,相信新的合作关系,将通过减少延迟和提高可靠性来改善中国iCloud用户的体验。”同样,微软已经在全球建立了26个数据中心,并另有8个在计划之中。互联网巨头纷纷在全球建立数据中心,一方面是当地政府的管理要求,另一方面则是因为用户产生的数据体量太大了,一个甚至几个数据中心根本满足不了用户的数据存储要求,互联网巨头只能多建数据中心。

(2)数据多样性(Variety)。多样性体现为数据资料来源多样性及数据结构多样性,数据来源包括数据、语音、视频、文本等信息,数据结构则包括结构化、半结构化和非结构化数据,如网络日志、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。数据提取者需要整合多样性的数据,这也要求数据提取者具备一定的技术分析能力。

(3)价值密度低(Value)。相对海量的数据而言,一定体量的数据对数据提取者而言价值数据并不多,因此总体上表现出价值密度低的特点,需要运用较高的技术分析手段提取价值数据。

(4)速度快时效高(Velocity)。由于大数据大多是线上数据,具有即时性特征,只能反映当下的个体行为和情感特征,因此,提取速度越快价值数据就越多,而一旦过了数据提取时间窗口期,那么,很多数据基本上都是无效且冗余的,如电影的营销数据、“粉丝”行为数据,以及搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐,等等。

以上是研究者和从业人员公认的四个特点,除此之外,有学者提出大数据具有在线的特点,美国Express Script公司的首席数据主管Inderpal Bhander认为大数据还具有另外三个特点。

(1)准确性(Veracity)。这里的准确性指的是大数据的准确性风险程度较高,大数据中会存在数据的不确定性,有些甚至是失真数据,最终会造成错误的分析结果。Normandeau, K. (2013). Beyond volume, variety and velocity is the issue of big data veracity. Retrieved from http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/.因此,数据提取者除了具备一定的数据分析能力以外,还必须具备一定的数据筛选能力,在数据分析之前应把失真数据过滤掉。

(2)短暂性(Volatility)。大数据资料有时是短暂的,在使用时应注意资料的有效期和存储时间,使用数据时应把不相关数据剔除。

(3)有效性(Validity)。有效性指的是数据是否有效,应使用有效数据,以避免偏误。

实际上,无论是学者提出的大数据具有在线(Online)的特点,还是Inderpal Bhander提出的大数据另外三个特点,它们都应在前面4V特点所概括的范围之内,因此,我们并没有把这些特点单列出来。同时,在数据分析过程中,大数据分析还具有与传统数据分析不同的特点,如表2-1所示。

表2-1 传统数据分析与大数据分析对比刘幼琍,等.大数据与未来传播[M].台北:五南图书出版有限公司,2016: 5.

虽然大数据分析与传统数据分析有截然不同的特点,但大数据分析并不能完全替代传统数据分析,如我们在做电视收视调查时,尽管通过大数据分析能够得到更精准的结果,但传统收视调查也有自身的优势,两者之间可以相互弥补而不是相互替代,这一点我们在后面章节会有专门论述。