三、大数据的特征

1.“3V”特征

2001年,美国商业研究机构高德纳公司的分析师道格·莱尼首先提出大数据的Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)特征,即“3V”,得到广泛认同张燕南.大数据的教育领域应用之研究[D].上海:华东师范大学,2016.

Volume即数据容量。大数据首先考虑数据的容量问题,2023年全球互联网网民为85亿人次,每天产生的数据以EB计,预计2025年人类每天将产生491EB的数据。全球每天产生的数据储存和处理需求,推动了相关行业和技术的快速发展,云计算、人工智能、搜索技术、数据算法等数据分析处理技术的更替为互联网海量数据的准备、恢复、管理等提供了可能。

Velocity即数据速度。大数据时代,全球每秒就能聚集起大量的数据,一辆新能源汽车一天能产生450TB的数据,这对大数据相关企业的数据存储、读取、分析等技术提出了更高要求。

Variety即数据种类。人类每天生活的方方面面都会产生数据,数据的种类繁多,消费购物产生数据、坐车出行产生数据、网上冲浪产生数据、社交网站和购物网站等每天会产生海量数据、各种物联网每天也会产生大量数据,等等。

2.“4V”特征

美国的国际数据公司(IDC)从四个方面对大数据进行定义,即Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)、Value(数据价值),其在道格·莱尼(2001)的基础上增加了Value(数据价值)赵国栋,易欢欢,糜万军,等.大数据时代的历史机遇[M].北京:清华大学出版社,2013:21.

Value(数据价值)是指数据对政府、企业、社会组织等的有用性,数据的真实性与数据的价值性相关联。数据的真实性越强,数据的价值性就越高;数据的时效性越强,数据的价值性就越高。

3.“5V”特征

美国学者托马斯·埃尔、瓦吉德·哈塔克、保罗·布勒认为,大数据具有Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)、Value(数据价值)、Veracity(数据真实性)5个方面的特征,在美国国际数据公司4个特征的基础上增加了Veracity(数据真实性)托马斯,瓦吉德,保罗.大数据导论[M].彭智勇,杨先娣,译.北京:机械工业出版社,2017:13.

Veracity(数据真实性)是指数据的质量和保真性,进入大数据环境的数据需要确保质量,使数据处理过程中可以消除不真实的数据和噪音,因为数据本身在数据收集的过程中可能是信号,也可能是噪音,噪音无法转化为信息与知识,不具有价值,信号可以转化为价值。信噪比越高的信息,价值越高。

4.“5V+1C”特征

刘鹏提出,国内工业界公认大数据具有“5V+1C”的特征,即Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)、Value(数据价值)、Veracity(数据真实性)和Complexity(数据复杂性),在“5V”基础上增加了Complexity(数据复杂性)刘鹏.大数据[M].北京:电子工业出版社,2017:2-3.

Complexity(数据复杂性)是指数据的结构化特征非常明显,传统的数据方式无法处理,数据处理分析的难度大。

5.“6V+1C”特征

王莉、宋兴祖、陈志宝提出大数据具有Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)、Value(数据价值)、Veracity(数据真实性)、Variability(数据可变性)和Complexity(数据复杂性)特征,在“5V+1C”基础上增加了Variability(数据可变性)王莉,宋兴祖,陈志宝.大数据与人工智能研究[M].北京:中国纺织出版社,2019:3.

Variability(数据可变性)是指数据本身具有分散性和扩散性,在大数据处理过程中数据过于分散和扩散都会影响数据处理效率和数据有效管理等。

综上,可以把大数据的特征概括为Volume(数据容量)、Velocity(数据速度)、Variety(数据种类)、Value(数据价值)、Veracity(数据真实性)、Variability(数据可变性)、Complexity(数据复杂性)。大数据的特征是开放的、发展的,随着人们对大数据特征认知的深化,未来会有更多特征被归纳和认知。