大多数IT专家普遍认同机器学习在增强搜索引擎能力以及万物互联方面展现出巨大的价值,但机器学习在网络安全方面的价值却一直处于争议状态。
比如想知道哪些员工正在计划离职或带着企业的专有资料一去不复返的话,机器学习就可以帮你做到。只需要大约一周的基线数据梳理,就能获悉哪名员工要走或是可能对公司不利。同时,还能预测一天中哪个时段需要哪个层级的带宽,人们将会访问哪个端口甚至哪个网站。机器学习通过对时间基线数据的处理,发现有所不良企图的员工,其速度比传统人力资源部门要快得多。
虽然机器学习在网络安全方面的应用相对较新,但它拥有“革命性”的潜力。赛门铁克前首席技术官,阿密特·米塔尔(Amity Mital)认为,在当前网络安全的混乱状态中,机器学习是为数不多的希望灯塔之一。
每个系统都可能被玩坏,我们应该问的问题是:如果没有机器学习,问题会严重到什么程度?
但也不是所有的专家都认同机器学习的革命性力量。
安全初创公司Bromium首席技术官西蒙·克罗斯比(Simon Crosby)声称:“机器学习是网络安全最新一场白日梦。安全没有万灵药,根本没有任何证据证明这些工具有用。”
这一论调非常符合美国咨询公司Gartner的结论,该公司将机器学习列入了其2015技术成熟度曲线中处于“过高期望峰值”的5大技术之中。
但还有很多安全专家,虽然也同意网络安全没有万灵药,但说机器学习是白日梦的说法也过于极端了。
是的,机器学习不是万灵药,但在一个部署了数百万美元的安全防护措施的企业,被黑客攻击而造成巨大损失的威胁依然时刻存在。机器学习,并不意味着可以不加任何考虑地做任何事。还有很多事目前它做不太好,因此应该在机器学习上投入有经验有技能的人才,将之导向情报工作。
当有了足够的数据,也能够理解为什么这些数据呈现出某些特定的趋势的话,我们就能将预测准确度改善至90%以上,甚至会超过99%。这意味着,不仅可以简单问机器“我下周会被攻击吗?”,还可以具体到“我会在下周二下午3点受到来自某国的攻击吗?”,甚至“下一次攻击的时间、形式、来源、攻击者都可以预测。”
在今天,这种预测达到很高准确度的例子屡见不鲜。更为复杂的算法不仅仅是可能的,而且已经在被实际运用了。Gartner的技术成熟度曲线结论很可能大错特错,机器学习不仅没有被过高期望,相反明显地被过低期望了。
当然,在承认机器学习是个强有力工具的同时,同时也要看到其不成熟的一面。如不久前,见诸报道的“谷歌对确定流感爆发期的预测严重不准。”
这表明,虽然机器学习在发现事物相似性上有着巨大的优势,但在发现异常上可能没有想像的那么好。事实上,关于异常行为的任何讨论都建立在正常行为可能会发生的前提下。对于恶意攻击者来说,他们完全可以把攻击隐藏在正常行为之中,甚至他们还能够把系统训练成视恶意行为为正常行为。
困难归困难,每个系统都可能被入侵。但如果没有机器学习,问题会严重到什么程度?的确,机器学习不能替代人类,但机器学习能替代人类进行自动化识别。简而言之,机器学习就是通过数据集的分析,找出模式,并定义哪些是正常行为哪些是异常行为。而攻击者误导系统让“模型中毒”的方法,则可采用每个数据源应用多个模型的方法来抵御。这就意味着采用模型中毒方式的攻击者必须对用来检测危险行为的所有模型都了如指掌,无异这是非常困难的。
机器学习的部分能力在于能识别上下文,比如:“某人有权执行某项特定动作吗?在哪里以及何时执行等等。这意味着一个简单的预测能带来将60GB防火墙的需求降至6GB的效果。而且其可能性还远远不止这些。
机器学习是目前最火的话题,一个重要的原因在于,“我们如今有了更好的数据存储和更高品质的数据供我们更快地处理。”
那种认为机器学习被过度炒作的认知可能是因为其在网络安全方面的应用还相对较新,而且机器学习更难以应用到网络安全领域。要知道安全圈的人不喜欢分享数据,没有企业会告诉别人“我被入侵了,这是我的防火墙流量日志,给我看看你的呗。”而且,很多科技公司都还没意识到自己已经成长为大数据公司。
但机器学习将会很快达到在网络安全中广为应用的那一步,因为在其他领域的应用已经提供了大量成功案例供参考。一旦机器学习展现出与在其他领域所取得的同样成功,它将重塑网络安全。
(责任编辑:安博涛)