1.7 大数据实践平台的搭建

针对大数据技术的学习,本书假定读者已掌握Linux的基本使用、Java简单编程。

本书的定位是实践,所以在进入后面的学习前,需要动手搭建实践环境。这里给出几种搭建模式,帮助读者建立适合自己的环境。

1.7.1 初学者模式

本模式是在一台物理机(笔记本电脑或台式机)上,根据计算机硬件性能,搭建一台或三台虚拟主机,在虚拟主机里部署各类大数据组件。

(1)所需要的主要软件环境如下。

●虚拟主机软件:推荐采用VMware Workstation或Oracle VM VirtualBox。

●Linux操作系统:推荐采用Red Hat或CentOS。

●远程管理软件:SSH或SecureCRT。

(2)本模式的安装流程如下。

①在物理机上安装虚拟主机软件。

②在虚拟主机软件中新建虚拟主机,安装Linux。

③调通新建虚拟主机的网络,可以实现在物理机与虚拟主机之间互访问。

④开启SSH服务,实现物理主机通过SSH管理虚拟主机。

本模式适合初学者,优点是简单,缺点是每次使用大数据时,需要先开启虚拟主机,无法随时随地使用。

1.7.2 物理集群模式

本模式是采用多台(1至3台)物理服务器,在标准的机房环境里搭建大数据平台。

(1)所需要的主要软硬件环境如下:

●多台物理服务器。

●一台交换机。

●个人管理机,笔记本电脑或台式机。

●Linux操作系统,推荐采用Red Hat或CentOS。

●远程管理软件,SSH或SecureCRT。

(2)本模式的安装流程如下。

①服务器上架与物理连线。

②在所有物理服务器上安装Linux操作系统。

③调通物理服务器之间的网络,调通管理机对物理服务器的网络。

④在所有物理服务器上开启SSH服务,并增加机房网络防火墙安全策略,允许管理机通过SSH管理物理服务器。

本模式适合于机构用户,有一定的硬件资源,优点是性能优越,可永备使用;缺点是成本相对较高,集群规模有限。

1.7.3 虚拟化集群模式

本模式是采用云计算的模式,底层设置多台物理服务器,通过云计算管理软件实现几十、上百台虚拟主机的制备,在虚拟主机中搭建大数据平台。

(1)所需要的主要软硬件环境如下:

●一定数量的物理服务器。

●一定数量的交换机。

●个人管理机,笔记本电脑或台式机。

●OpenStack等云管理软件。

●Linux操作系统:推荐采用Red Hat或CentOS。

●远程管理软件:SSH或SecureCRT。

(2)本模式的安装流程如下。

①服务器上架与物理连线。

②在所有物理服务器上安装Linux操作系统。

③部署OpenStack框架,在物理服务器上按要求部署Nova、Ceph、Glance、Keystone、Quantum、MySQL、HTTP、Horizon等组件模块,完成云计算环境的部署。

④调通物理服务器、云计算内部网络,调通管理机对物理服务器的网络。

⑤制备Linux虚拟主机,并开放相关的SSH管理权限。

本模式适合于中型以上机构用户,利用富余的硬件资源搭建云环境,并按需对外提供虚拟主机资源,优点是可在分钟级内批量创建或回收上百个大数据节点,满足更多用户、更大范围的使用;缺点是需要维护云计算环境,如果规模不大,成本会比较高。