大数据安全篇

随着越来越多各式各样的数据被存储在大数据系统中,任何对企业级数据的破坏都是灾难性的,从侵犯隐私到监管违规,甚至会造成公司品牌的破坏并最终影响到股东收益。给大数据系统提供全面且有效的安全解决方案的需求已经十分迫切:

• 大数据系统存储着许多重要且敏感的数据,这些数据是企业长久以来的财富;

• 与大数据系统互动的外部系统是动态变化的,这会给系统引入新的安全隐患;

• 在一个企业的内部,不同Business Units会用不同的方式与大数据系统进行交互,比如线上的系统会实时给集群推送数据、数据科学家团队则需要分析存储在数据仓库内的历史数据、运维团队则会需要对大数据系统拥有管理权限。

因此为了保护公司业务、客户、财务和名誉免于被侵害,大数据系统运维团队必须将系统安全高度提高到和其他遗留系统一样的级别。同时大数据系统并不意味着引入大的安全隐患,通过精细完整的设计,仍然能够把一些传统的系统安全解决方案对接到最新的大数据集群系统中。一般来说,一个完整的企业级安全框架包括五个部分:

• Administration:大数据集群系统的集中式管理,设定全局一致的安全策略

• Authentication:对用户和系统的认证

• Authorization:授权个人用户和组对数据的访问权限

• Audit:维护数据访问的日志记录

• Data Protection:数据脱敏和加密以达到保护数据的目的

系统管理员要能够提供覆盖以上五个部分的企业级安全基础设施,否则任何一环的缺失都可能给整个系统引入安全性风险。在大数据系统安全集中式管理平台这块,由Hortonworks推出的开源项目Apache Ranger就可以十分全面地为用户提供Hadoop生态圈的集中安全策略的管理,并解决授权(Authorization)和审计(Audit)。例如,运维管理员可以轻松地为个人用户和组对文件、数据等的访问策略,然后审计对数据源的访问。与Ranger提供相似功能的还有Cloudera推出的Apache Sentry项目,相比较而言Ranger的功能会更全面一些。而在认证(Authentication)方面,一种普遍采用的解决方案是将基于Kerberos的认证方案对接到企业内部的LDAP环境中,Kerberos也是唯一为Hadoop全面实施的验证技术。另外值得一提的是Apache Knox Gateway项目,与Ranger提高集群内部组件以及用户互相访问的安全不同,Knox提供的是Hadoop集群与外界的唯一交互接口,也就是说所有与集群交互的REST API都通过Knox处理。这样,Knox就给大数据系统提供了一个很好的基于边缘的安全(perimeter-based security)。

基于以上提到的五个安全指标和Hadoop生态圈安全相关的开源项目,已经足已证明基于Hadoop的大数据平台我们是能够构建一个集中、一致、全面且有效的安全解决方案。我们明略的MDP大数据平台就是这样一款兼顾数据安全与运维安全的产品。