- 大数据赋能高校精准思政建设探析
- 伍艳等
- 580字
- 2024-07-15 17:33:13
四、大数据的结构
我们生活的世界每天都会产生大量的数据,其中既有人为产生的数据,也有机器等产生的数据,这些数据会以不同的格式呈现,主要的数据类型有国际国内经济贸易、商业零售等为代表的结构化数据,电子邮件等为代表的半结构化数据,文本数据、图像数据、视频数据、音频数据等为代表的非结构化数据。
1.结构化数据
结构化数据是指遵循一个标准的模型或者模式,能够用二维表结构或者统一的结构加以表示的数据,如数字、符号等。企业资源计划(ERP)、客户关系管理(CRM)等企业应用信息系统会频繁产生结构化数据。结构化数据在储存和处理过程中不需要做特殊的考虑,这类数据的例子包括银行交易信息、发票信息和消费者记录,等等。
2.非结构化数据
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。其既可以处理结构化数据,如数字、复核等信息,也可以处理非结构化数据,如全文文本、图像、声音、影视、超媒体等信息。根据美国国际数据公司的一项调查显示,非结构化数据越来越成为数据的主要部分,目前企业中80%的数据都是非结构化数据,这些数据按每年60%的速度增长。
3.半结构化数据
半结构化数据是指介于结构化数据和非结构化数据之间的数据。可扩展标记语言(XML)、超文本标记语言(HTML)文档就属于半结构化数据。由于文本化的本质及某些层面上的结构化,半结构化数据比非结构化数据更好处理。