- R语言与网络舆情处理
- 于卫红
- 2598字
- 2025-04-18 16:10:45
第2章 R语言基础
2.1 R语言简介
2.1.1 R语言的起源、特点及安装
R语言是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R语言是S语言的一种实现。而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来新西兰奥克兰大学的Robert Gentleman和Ross Ihaka及其他志愿人员开发了一个R系统。由“R开发核心团队”负责开发。R语言是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做修改地在R环境下运行。R语言的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R语言的使用手册。所以有人说:R语言是S-PLUS的一个“克隆”。但是,R语言是免费的,R语言源代码托管在github(https://github.com/SurajGupta/r-source)。
与常见的统计分析软件,如Microsoft Excel、SAS、IBM SPSS、Stata等相比较,R语言具有如下几点明显的优势。
(1)多数商业统计软件价格不菲,投入成千上万美元都是可能的。而R语言是免费的。
(2)R语言是一个全面的统计研究平台,提供了各式各样的数据分析技术。几乎任何类型的数据分析工作皆可在R中完成。
(3)R语言囊括了在其他软件中尚不可用的、先进的统计计算例程。
(4)R语言拥有顶尖水准的制图功能。如果希望复杂数据可视化,那么R语言拥有最全面且最强大的一系列可用功能。
(5)从多个数据源获取并将数据转化为可用的形式,可能是一个富有挑战性的议题。R语言可以轻松地从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计软件,乃至专门的数据仓库。它同样可以将数据输出并写入到这些系统中。R语言也可以直接从网页、社交媒体网站和各种类型的在线数据服务中获取数据。
(6)R语言是一个无与伦比的平台,在其上可使用一种简单而直接的方式编写新的统计方法。它易于扩展,并为快速编程实现新方法提供了一套十分自然的语言。
(7)R语言的功能可以被整合进其他语言编写的应用程序,包括C++、Java、Python、PHP、Pentaho、SAS和SPSS。这让用户在继续使用自己熟悉语言的同时在应用程序中加入R语言的功能。
(8)R语言可运行于多种平台之上,包括Windows、UNIX和Mac OS X。这基本上意味着它可以运行于所能拥有的任何计算机上。
R语言可以在CRAN上免费下载。CRAN为Comprehensive R Archive Network(R语言综合典藏网)的简称,地址为https://cran.r-project.org/mirrors.html。它除了收藏了R语言的执行文件下载版、源代码和说明文件,也收录了各种用户撰写的软件包。目前,全球有超过一百个CRAN镜像站。下载完毕后,根据所选择平台的安装说明进行安装即可。
为了使R语言的使用更加方便,安装R语言之后,还可以进一步地安装RStudio。RStudio是一款跨平台的、免费的、开源的R语言集成开发环境,可以跨平台运行。RStudio把常用的窗口都整合在一起,开发者不用在命令行和绘图窗口间来回切换,RStudio全部都在一个窗口,更方便操作。RStudio的主要特色如下。
(1)可定制的工作台,所有与R语言开发所需的工具在一个同界面(控制台、源码、工作区等);
(2)语法高亮的编辑器并支持代码完成;
(3)直接从源码编辑器执行代码;
(4)全面支持Sweave和TeX文档创作;
(5)可运行在Windows,Mac和Linux等主要平台上,也可以作为服务器运行,使多个用户使用Web浏览器访问RStudio IDE。
RStudio的下载地址为https://github.com/rstudio/rstudio。
2.1.2 R语言的基本操作
R语言是一种区分大小写的解释型语言,使用命令行的工作方式。对于数据分析来说,命令行操作会更加灵活,更容易进行编程和自动化处理。R语言的基本界面就是一个交互式命令窗口,命令提示符是一个大于号(>),在命令提示符(>)后,每次输入并执行一条命令,或者一次性执行写在脚本文件中的一组命令,如图2-1所示。
R命令主要有两种形式:表达式或赋值运算。R使用<-,而不是传统的=作为赋值符号。例如,以下语句:

创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差,如图2-2所示。
为了方便起见,可以用向上光标键来找回以前运行的命令再次运行或修改后再运行。也可以将语句写在脚本区,选择需要执行的语句,单击Run按钮即可运行,运行结果显示在控制台区(Console)。如图2-3所示,图中的脚本计算1~100的和。

图2-1 R语言的交互式命令窗口

图2-2 R语言赋值语句示例

图2-3 R语言脚本示例
2.1.3 R语言的常用命令
下面列举几个R语言中的常用命令。
1.工作目录的设置与获取
(1)setwd(dir):设定工作目录,dir是代表目录的字符串。
(2)getwd():获取当前工作目录。
例如,将d:\设置为工作目录:

2.包操作
(1)library():列出已安装的包。
(2)require(package)或library(package):加载包。
例如:

(3)data():列出已安装的包中的所有数据集。
(4)data(package=“packagename”):列出指定的包中的所有数据集。
例如,列出arules包中的所有数据集:

3.帮助命令
(1)help(command):查看某一个命令或函数的帮助文档。
例如,打开lapply命令的帮助文档:

(2)help(package=“packagename”):打开某一个包的帮助文档。
例如,打开cluster包的帮助文档:

2.1.4 包的安装与加载
R语言的使用,很大程度上是借助各种各样的R包的辅助。从某种程度上讲,R包就是针对于R的插件,不同的插件满足不同的需求,目前R语言收录了大量的可用于经济计量、财政分析、人文科学、人工智能等研究的包。
首次使用时,R语言默认只安装了base包,还有很多包在第一次使用时都需要先安装,安装以后每次需要使用包的时候只需加载该包即可。
1.包的安装
R语言中通常使用如下方法安装函数包。
1)使用命令
一种方法是在命令提示符下输入如下命令:

package_name是指定要安装的包名,请注意大小写。
dir指的是包安装的路径。默认情况下是安装在..\library文件夹中的。可以通过对该参数的修改来选择安装的文件夹。
例如,以安装MASS包为例,使用如下命令:

运行该命令,R软件会自动下载MASS包,然后将MASS包安装在D:\R\R_Packages目录下。
2)本地离线安装
选择合适的镜像下载要安装的包的压缩文件,则可以实现在本地离线安装。在不同操作系统下安装文件的后缀名是不一样的。
(1)Linux环境编译运行,安装文件的后缀为:.tar.gz。
(2)Windows环境编译运行,安装文件的后缀为:.zip文件。
(3)Mac OS环境编译运行,安装文件的后缀为:.tgz文件。
在如图2-4所示的对话框中,在Install from下拉列表框中选择Package Archive File(.zip;.tar.gz),则会弹出安装文件选择的对话框,在本地数据盘中选择需要安装的包的压缩文件即可实现本地离线安装。

图2-4 R语言安装包的选项框
2.加载包
包安装后,如果要使用包的功能,必须先把包加载到内存中(默认情况下,R语言启动后默认加载基本包),加载包的命令为:library(“包名”)或require(“包名”)。