1.1 什么是文本数据挖掘

文本挖掘(Text Mining),常又称为文本数据挖掘(Text Data Mining)、文本分析(Text Analytics),是指通过计算机技术自动化地从书面材料中提取信息,从而回答特定领域内提出的问题。这里所讲的书面材料,既可以来自于传统媒体,如报纸、书籍、杂志;也可以来源于新兴媒体,如电子邮件、网页、电子报告。究其根本,就是要从海量非结构化的文本数据中提取高质量有价值的信息。这个过程需要借助很多手段,包括模式识别、趋势分析、统计汇总等。常见的文本数据挖掘任务包括文本分类、文本聚类、命名实体识别、文本摘要、情感分析等,这些任务的解决往往需要使用各种自然语言处理技术和机器学习方法。一个典型的文本数据挖掘框架中,需要针对研究问题对输入的文本进行清洗,并整理成结构化的数据格式(通过定向提取、去除噪声等方法),然后根据需求进行分析与可视化,最后对输出结果进行解读和评估,得到具有指导意义的结论。