2.1 开发环境配置

对于初学者而言,环境越简单就越有利于入门。如果你对R毫无经验,强烈建议大家就用一个R软件和记事本来对本章的内容进行学习即可,即可以忽略本章集成开发环境部分。但是在后期做大型项目中,以及需要经常重复使用一些脚本的时候,集成开发环境可以大大提高开发的效率,是进行高级编程便利的工具。因此,本章会对其进行最基本的介绍,以期引导大家迅速上手R语言友好的数据科学工作流。

2.1.1 下载并安装R软件

作为免费开源软件,R能够在包括Windows、Linux、mac OS X在内的各种操作系统上安装并运行。因为R允许自由散布,因此在很多地方都可以下载到各个版本的R软件。一般来讲,推荐到官方网站进行下载,其网址为https://www.r-project.org/。在这个网站中(图 2.1),可以选择一个离所在地接近的镜像进行下载,然后根据计算机的操作系统类型(Windows、Linux、Mac)选择安装包。下载完成后,可以根据向导的指引进行安装配置。在安装配置过程中,用户可以自行选择安装路径、是否使用语言翻译、安装32位还是64位的软件(也可以两者同时安装,一般推荐使用64位)。

图2.1 R的官方下载界面

2.1.2 包的管理

“即插即用”的包(package)是R软件流行的重要原因,通过制作R软件包,社区贡献者可以编写自己的程序并共享给广大的用户。通过使用R包,用户能够在不理解底层细节的情况下,依然能够实现复杂的数据科学计算和数据可视化,而有开发能力的开发者则可以通过研究源代码来进一步优化这些软件的性能,并拓展这些软件的功能。在R中,要安装一个包非常简单,直接使用install.packages函数即可。例如,想要安装名为“pacman”的包,可以使用如下命令:

包安装好之后,还不能在R环境中直接调用,必须使用library函数对包进行加载。

在R中,pacman包的p_load函数,可以同时完成上面的两个过程。也就是说,如果已经有了这个包,包会自动加载;如果还没有这个包,那么会先自动进行安装,然后再进行加载。例如我们要把installr包加载到环境中,可以这样操作:

事实上,pacman包还可以对R包进行其他管理操作,包括下载GitHub发布的R包、更新R包的版本、从环境中卸载包等。关于pacman包更多的功能,可以参考其GitHub主页(https://github.com/trinker/pacman)。

2.1.3 版本升级

R社区是一个动态活跃的开源社区,R软件本身会不断迭代更新,而安装的包也会不断排错和升级,因此需要定期对R软件及R包进行版本更新,才能够确保用上最新的功能。如果想查看R软件的版本,可以输入“version”。

如果想查看某一个包的版本号,则可以使用packageVersion函数。例如,想要查看pacman包的版本号时,可以进行如下操作。

每次对R软件及其各个包的更新都要重新下载是非常麻烦的,所幸installr包可以把整个更新过程自动化,其操作极其简便,如下所示。

上面这个操作会引导用户进行各种下载和安装的操作,非常便捷。如果需要更新所有R包的版本,让它们升级到最新版本,可以使用update.packages函数

2.1.4 集成开发环境

R是一个基于命令脚本的交互式开发环境,界面极其简洁(图 2.2)。可以输入合法代码完成与计算机的“交流”,得到对应的结果。

图2.2 R的界面

对于初学者而言,集成开发环境(Integrated Development Environment,IDE)相对没有那么重要,而是应该重视代码本身的意义与获得结果的含义。但是,在了解R之后,如果能够熟练掌握一款IDE则有利于提高工作效率。R软件自带文本编辑器,利用一个简单的记事本(扩展名为.txt)也可以对脚本进行记录和管理,但这些功能都比较基础。目前R社区中最流行的IDE是RStudio(https://rstudio.com/),它具有自动补全代码、识别代码语法错误并提醒、可以直接在编辑器中调入控制台运行等一系列强大功能。对于个人用户而言,可以从官方网址(https://rstudio.com/products/rstudio/download/)中下载其免费版本(RStudio Desktop)。下面,对Rstudio的开发界面进行简要介绍。

传统的RStudio界面包含4个模块(图2.3)内容如下。

模块1 是代码笔记本,可以在这个模块中记录代码和修改。在这里,可以直接对代码进行逐行运行,在编写代码的时候会进行代码自动补全,非常便捷。

模块2中则包含了R环境(Environment)中的一些信息,例如我们把对一个变量进行赋值,那么这个变量就会出现在这个环境中。同时,模块 2中还会有其他的选项卡,例如“History”,它会记录着历史信息,即在控制台中运行的代码记录。

模块3 就是代码运行的控制台,它相当于图2.2中所显示的界面,是R代码实际运行的地方,能够看到用户与R实时的交互信息。

图2.3 Rstudio的用户界面

模块4 则包括文件路径信息,让用户能够在IDE中直接打开、保存、移动文件。同时,绘图展示(“Plots”)选项卡、帮助文档(“Help”)选项卡也在模块4中,用户在R中生成的图可以在“Plots”中进行查看,还能够随时观看之前生成的图片,并进行复制或导出。而“Help”则提供了便捷的帮助文档界面,用户可以直接在这个界面输入不熟悉的函数名称,从而查阅其文档;而在控制台输入以问号开头的帮助语句(如“?mean”)也会直接导向这个帮助显示界面。

此外,在4个模块之上,还包含了快捷工具栏,这里面包含了新建、打开、保存、改变布局、加入插件等功能,以提高用户的工作效率。而最顶上的基础工具栏,则可以对IDE进行更多样的设置,如“Tools”选项卡中可以找到“Global Options…”选项,在弹出窗口中可以对IDE中的个性化选择进行全局设置。

同时,RStudio默认有一系列的快捷键来方便用户进行快速操作。

●〈Ctrl+Enter〉:运行当前代码。

●〈Ctrl+C〉:复制。

●〈Ctrl+V〉:粘贴。

●〈Ctrl+Shift+M〉:插入管道操作符(“%>%”)。

●〈Ctrl+Shift+C〉:批量注释。

●〈Esc〉:结束当前命令。

更多的使用方法,可以参考RStudio的官方帮助文档(https://docs.rstudio.com/)。