不论是处于什么领域,对于“安全与隐私”都极为关注,而对于大数据也是如此,在其诞生之时就已经注意了。在这个数据大爆炸的时代,企业通过大数据可以更加高效的洞察和预见消费者行为以及行业趋势,但同时也伴随着安全性的困扰。能否保护自己的隐私安全、信息安全,成为了企业部署大数据之前摆在面前的首道难题。
Hadoop作为大数据的首选平台,从开发之初也一直被笼罩着安全性问题。曾有开发者指出,“当Hadoop在2004年开始开发的时候,对如何创建一个安全的分布式计算式环境上没有考虑,Hadoop框架对用户及服务的验证和授权严重不足,用户可以仿冒任意一个HDFS和mapreduce上的用户,恶意的代码可以以任何一个用户提交到Jobtracker”。他还提到,到了2009年,关于hadoop安全性的讨论已经接近白热化了,安全被作为一个高优先级的问题摆了出来。
Hadoop在面对多数据源的数据聚合与数据分析方面性能表现得十分高效,但也不能忽视由此带来的安全性风险。国外专家指出,Hadoop在应对企业的海量数据分析时,表现得灵活自如。但也不能忽视Hadoop引入的一系列新问题,包括安全性,数据访问,数据监控,HA,业务数据连续性等各个方面。这些问题是企业必须面对的问题。
虽然业界普遍关注安全问题,但往往都是在实施后或者在实施过程中开始考虑。而在实际上,在启动大数据项目之前要考虑安全问题,才能做到未雨绸缪从容应对。不应该等到发生数据突破事件之后再采取保证数据安全的措施。
大数据的安全性问题应在部署之前便加以考虑
分析机构Dataguise最近发布了Hadoop数据安全措施,其中首条便指出,数据隐私措施越早越好。分析认为,通过及早启动并建立敏感数据预案,企业能尽早发现Hadoop环境中的敏感数据,分析合规风险并合理采用数据保护技术,这不但能大大降低数据泄漏和合规风险,还能提高大数据项目的投资回报。
以下是Dataguise列出的大数据安全措施:
数据隐私措施越早越好。在规划阶段就明确数据隐私保护策略,最好在将数据导入Hadoop之前完成,这可以防患未然。明确你所在企业中哪些数据元素属于敏感数据。充分考虑企业的隐私政策,相关行业规定和政府法规。
审视分析环境和装配Hadoop系统的过程中是否藏有/夹带敏感数据。收集足够信息来明确合规风险。明确业务分析是否需要访问真实数据,或“脱敏”数据能否使用。然后选择合适的敏感信息遮挡和加密等矫正技术(maskingorencryption)。遮挡(masking)技术提供最好的安全性能,而加密则更具灵活性,视将来的需要而定。
确保数据保护方案能够同时支持遮挡和加密两种数据矫正技术,尤其是当需要将经过遮挡处理和未经遮挡的两个版本的数据分别存放于不同的Hadoop目录下的时候。
确保数据保护技术对所有数据文件提供一致的masking方式,这样可以保证在各个数据汇聚维度上的分析的准确性。确定特定数据集是否需要定制的保护方案,出于数据单元安全管理的需要,可以考虑将Hadoop目录划分成更小的群组。
确保你选择的加密方案与企业的访问控制技术能够互操作,这样特定级别和身份的用户只能访问Hadoop集群中特定的数据范围。当需要使用加密技术的时候,确保部署合适的技术(Java、Pig等)实现无缝加密,同时确保对数据的无障碍访问。
在惠普公司企业安全产品部北亚区总经理姚翔看来,大数据现在是一个很大的趋势,预计未来五年之内,大数据在中国市场将平均增长51%。而其中,安全一定是不可回避的话题。虽然大数据尚处于初级阶段,但在构建数据库和数据中心云的时候都必须有安全的考虑,如果没有安全,构建再大的业务系统可能最后的损失也会很大。
(责任编辑:)