- 文本数据挖掘:基于R语言
- 黄天元编著
- 381字
- 2021-07-08 12:06:59
第1章 走进文本数据挖掘
本章概述:
语言的形成,是人类文明进步的一大里程碑,它让知识经验和思想感情的交流成为可能。但是口口相传的信息是低效的,因此人们把语言转化成文字,并在石头、竹签、纸张等各种载体上记录下来,从而实现知识的传承。在信息时代,随着计算机技术的进步,文本信息体量呈现大爆炸的趋势。这些文本既可能包含着客观的知识经验,又或带有民众对一个事物的观点看法。如果能够对这些信息进行提炼,进行总结归纳和推理,其获得的成果无论对于商业活动、学术研究或更多更广阔的领域,都具有宝贵的参考价值。由于文本属于非结构化数据,对海量文本进行定量和定性的挖掘对于数据科学家来说是一项富有挑战性的任务。要去尝试完成这个任务,首先要对这个任务有一个清晰的认识。本章将会针对文本数据挖掘的基本概念进行介绍,试图解析什么是文本数据挖掘,为什么要进行挖掘,并对如何进行文本挖掘进行探讨。