美国国务院每年对20亿封电子邮件进行分类是一项艰巨的任务。目前,其已经看到了机器学习和自动化的好处。
美国安全部门的协调失败已经在诸如9/11袭击事件之后被广泛报道。美国安全部门工作人员可能会获得防止攻击所需的知识,但是缺乏协调,导致这种情况没有应该拥有的人才。结果,发生了本可预防的暴行。
最近一篇文章探讨了如何使用人工智能来改善美国国务院的内部流程。该部门这项工作特别感兴趣的是,如何更好地正确分类每年在内部生成的大量电子邮件。
进行分类
该部门被认为每年产生约20亿封电子邮件,其中许多包含分类信息。然而,了解(并因此正确地标记)秘需要分类的内容是一项艰巨的工作。
研究人员使用机器学习来改善这一点。他们开始通过训练他们的算法从上世纪70年代美国国务院和海外外交官之间的通讯的大约一百万封邮件分类。每封邮件以前都标记为秘密,机密,有限的官方使用或未分类。
在训练了系统之后,他们设置这个系统工作,以查看它是否可以正确地分类文档,特别是它是否可以正确地标记内容应该是分类状态。
该算法在这样做时证明是特别有效的,其在分类内容的成功率为90%,错误率仅为11%。更重要的是,团队认为他们可以用更好的数据做更好的工作。
什么使这些内容进行分类?
除了对内容进行分类的能力之外,这项工作还揭示了一个有助于其安全状态的信息方面的新亮点。例如,出现了某些单词的频率是整个消息的安全状态的最佳指示符,而发送者和接收者更不可靠。
有趣的是,机器分配的一些错误标签实际上被证明是人为的错误。换句话说,他们应该被分类,但人类却标记了它们。
这表明,机器可以在确保内容被正确分类方面发挥越来越重要的作用,但是为了使其有效,人们需要有良好的质量数据来训练机器。
此外,该工作还具有揭示数据共享中的模式的潜力,以及实际上在人们的安全服务中的数据移除,其本身可能具有安全影响。毕竟,分类内容有丢失的习惯。
虽然这无疑是有趣的,但也很清楚,这样的过程是一个非常早期的阶段。然而,鉴于美国国务院每年花费数十亿美元对文件进行分类,这项工作有希望值得进一步发展。
(责任编辑:宋编辑)