- R语言与网络舆情处理
- 于卫红
- 1727字
- 2025-04-18 16:10:45
前言
2013年8月19日和20日,习近平总书记出席全国宣传思想工作会议并发表重要讲话;2014年10月15日,习近平总书记主持召开文艺工作座谈会并发表重要讲话;2015年12月25日,习近平总书记视察解放军报社并发表重要讲话;2016年2月19日,习近平总书记到人民日报社、新华社、中央电视台三家中央新闻单位进行了实地调研后,主持召开党的新闻舆论工作座谈会并发表重要讲话。从这些讲话中,我们可以深刻地领会到:党中央高度重视舆论宣传工作,根据形势发展的需要,更是把网络舆情监督和引导当作重中之重来抓。
在当前的互联网及大数据的时代背景下,网络舆情形成迅速,影响着社会生活的方方面面,如何高效全面地采集舆情数据并利用数据挖掘算法及数据分析工具将舆情文本中有价值的信息挖掘出来,对于舆情监管、舆情研判、舆情引导至关重要。网络信息的不断膨胀给舆情工作提出了新的挑战,为了更好地进行舆情收集、舆情研判、加快构建舆情引导新格局,舆情工作方式、舆情管理思维、舆情数据分析技术等都需要不断创新。
作者在本书的写作过程中阅读了大量的相关文献。文献研究表明,目前,越来越多的学者加入到了网络舆情的基础理论、支撑技术和演化机制等的研究中,网络舆情的研究视角日益多样化,研究内容也越来越深入。从网络舆情分析的视角来看,其核心技术主要包括自然语言处理、文本分类、文本聚类、关联分析、智能预测等,相应的理论、算法等也日臻成熟。但是,在实际的网络舆情分析各个环节中,舆情信息如何有效地采集、舆情分析算法如何高效地实现、舆情分析结果如何可视化展示等问题仍然困扰着很多研究者和舆情分析人员。
基于上述考虑,本书以R语言作为舆情分析工具,在阐述相关原理的基础上,介绍了网络舆情信息采集、舆情信息预处理、舆情文本分类、舆情文本聚类、舆情数据关联规则挖掘、舆情预测等的技术和方法。作为数据分析的利器,与其他流行的统计分析软件(如Excel、Matlab、SAS、SPSS等)相比,R语言的优势主要体现在开源免费、易于扩展、数据包丰富、可视化功能强大、可运行于多种平台。
本书力求简明扼要、提供有价值的知识,以最浅显的语言、详尽的R语言实现代码向读者循序渐进地展现网络舆情分析的完整过程。本书共8章,具体章节结构如下。
第1章 网络舆情与舆情分析概述:主要介绍了网络舆情的定义及特征,并对网络舆情的研究热点及相关技术做了概述。
第2章 R语言基础:为了帮助不熟悉R语言的读者尽快入门,本章主要从数据读写、基本语法、绘图三方面对R语言的使用做了言简意赅的介绍。
第3章 网络舆情信息采集及R爬虫的实现:介绍了网络舆情信息采集的基本原理、八爪鱼数据采集器的使用,并通过示例讲解了如何使用R语言开发一个简单的信息采集爬虫。
第4章 基于R语言的舆情信息预处理:介绍舆情信息预处理中分词、去停用词、词频统计、文本向量化等的基本原理以及R语言实现方法。
第5章 基于R语言的网络舆情分类:从分类的基本原理入手,介绍了决策树分类算法、网络舆情分类的基本原理,并通过“微信公众号文章分类”这一示例讲解了使用R语言进行网络舆情分类的方法和步骤。
第6章 基于R语言的网络舆情热点话题聚类:介绍了聚类的基本原理、经典的聚类算法、聚类算法在舆情分析中的应用,并通过“电商顾客评论热点话题聚类”这一商务舆情分析示例讲解了使用R语言进行网络舆情聚类的方法和步骤。
第7章 基于R语言的网络舆情关联规则挖掘:介绍了关联规则挖掘的基本原理、常用的关联规则挖掘算法、关联规则在舆情分析中的应用,并通过“雾霾舆情热点词关联模式挖掘”这一示例讲解了使用R语言进行网络舆情关联分析的方法和步骤。
第8章 基于R语言与BP神经网络的网络舆情分析:介绍了BP神经网络的算法原理、BP神经网络在舆情分析中的应用,并通过“微博转发数与评论数预测”这一示例讲解了使用R语言与神经网络进行网络舆情相关指标预测的方法和步骤。
本书系2015年度教育部人文社会科学研究规划基金项目“微信环境下基于大数据的高校舆情监管机制研究”(项目编号:15YJAZH102)研究成果之一。本书内容浅显易懂、代码详尽,希望能对舆情工作者及研究人员有所裨益。由于作者学识有限,书中难免有所疏漏,在此表示歉意,并请读者朋友们不吝赐教。最后感谢清华大学出版社为本书的出版所做的努力。
大连海事大学 于卫红
2017年3月