电信和网络诈骗因其每年造成的大量经济损失,一直是整个社会的痛点。尤其在徐玉玉案发生之后,更是引起了全社会广泛的关注,以及公安机关等执法部门联合科技企业的严厉专项打击。
互联网巨头,基于其长期积累不同纬度的丰厚数据资源、强大的数据处理和分析能力、以及与其自有业务安全能力的紧密结合等核心优势,再加上运营商、银行等行业的数据支持、以及与公安部刑侦局等机构的合作,这些使得其在打造以打击诈骗号码、伪基站、钓鱼网站为代表的反诈骗能力时,往往会有不俗的表现。
去年10月,国务院联席办“钱盾反诈平台”正式发布。钱盾反诈平台由阿里巴巴提供技术支持。作为中国互联网公司巨头之一,阿里巴巴在反诈骗领域安全能力的曝光一直不多。而随着钱盾的发布,也使得阿里体系内针对个人反诈骗能力的空缺,特别是在电信诈骗识别和反钓鱼领域,得到了重要补充。
由国务院联席办牵头,阿里安全打造的钱盾反诈平台,能力优势在哪里?与阿里体系现有的安全能力,又有哪些结合?
一、准确预测近50%的恶意号码
钱盾反诈平台的核心能力之一,是对潜在恶意号码的准确识别甚至预测。
目前,各家对诈骗号码的识别的实现思路是比较一致的,大致分为下面两种:
1. 黑名单库
依靠用户的举报数据、合作厂商间的数据交换等渠道建立,但数据会有过期、噪声、不可信等问题。虽然可以参照公安警情数据来进行部分数据的核查,但需要不小的人力投入。这其中,举报数据会是各家争抢的重要资源。
2. 特征工程
包括但不局限于号码本身、通话记录、用户习惯、诈骗心理等特征。难点在于特征的挑选、提取和组合,需要大量的验证以构建最“有效”的特征体系。同时,考虑好用户隐私这条红线,可用数据的维度是比较有限的。
钱盾反诈平台的核心恶意号码检测模型——DeMalC系统(注:相关论文入选CIKM2017),就是特征工程这个思路的延伸。
CIKM2017所有接收论文的哈希标签
阿里巴巴集团安全部数据与算法团队的李裕宏向安全牛介绍,目前业内大部分恶意号码识别引擎,在初期阶段,大部分都是以特征工程为主。特征的挑选的难点,除了尽可能从更丰富的应用场景来提取并尝试更多的组合外,还包括如何来度量(即提取规则和阈值的设定)。这些都需要大量的实验验证作为支撑,特别是在恶意号码识别这个场景下。
利用特征对号码进行多维度画像后,再利用机器学习的算法计算每个号码的风险分,并最终给出号码标签,是DeMalC系统的主要思路。
DeMalC的系统框架
来自用户移动终端特征数据,在用户授权的情况下,共有包括“号码属性”、“通话频次”、“通话时长”、“号码活跃度”、“空间分布”、“设备分布”以及“历史通话号码间的社交关系”这七个大维度,多达190个特征。同时,利用在特征自动组合和高效运算具有较大优势的梯度提升决策树(GBDT)算法对可疑号码在各个维度进行单独打分,形成标签。恶意号码至少在一个维度会表现出异常。
设备分布、空间分布、通话频次,是在测试集中作为显著的三个特征维度。在10亿条通话记录的测试集中,对恶意号码识别准确率可达91.86%。在上线使用后的,所捕捉到的可疑恶意号码,有50%(注:该数据为阶段性统计数据)在20天后通过可信的用户举报被确认。
不同维度的特征重要性
除了DeMalC系统提取的号码特征外,用户的举报数据也是非常重要的一个参考维度。但是用户的举报数据首先是有限的,其次不一定可信,而且具有一定滞后性,所以这部分数据主要是作为特征工程的辅助和验证手段。
二、和阿里既有业务安全能力的结合
如果说DeMalC系统钱盾反诈平台的大脑的话,那么为了做出正确判断和更准确的预测,这个大脑所需要的独特的知识,或者说让它区别于其他类似“大脑”的本质,是和阿里体系内既有业务所能提供的安全能力的紧密集合。这是钱盾反诈平台所站在的“巨人的肩膀”。
阿里体系内的电商业务——淘宝(天猫)、支付业务——支付宝、物流业务——菜鸟驿站,这三大业务因其拥有丰富订单、物流和银行交易数据,所以在业务风控、身份认证等领域均有着强大的安全能力积累。当然,阿里内部有着严格的数据访问控制措施,即使是同一业务部门也不能看到工作需求之外的任何数据。但是,针对包含在注册、订单、交易记录、银行卡绑定等信息中的号码资源,每个部门都有自己的风控体系,并有不同纬度的信誉值打分和相关标签。
这些信誉数据以及背后独有的视角,在恶意号码识别的准确度和覆盖范围这两方面,对于钱盾来讲是非常重要的补充。
举两个例子:
1. 与支付宝风控系统交互实现欺诈交易拦截
欺诈短信一般要包含银行卡号和电话号码,如果钱盾判断该号码为诈骗号码,会自动联动支付宝的风控体系,对正在转账过程中的交易进行尽可能的拦截,帮助挽回损失;如果支付宝发现异常交易,相关号码也会被实时添加进钱盾的黑名单库,尽早进行诈骗提醒。
2. 利用淘宝构建白名单库
恶意号码,在淘宝的信誉值(包括用户的活跃度、是否为高价值、是否有过刷单等欺诈行为等)一般很低,或者没有任何交易和注册记录。这种号码产生诈骗行为的概率要比高信誉值用户高很多。所以会得到DeMalC系统的额外关注,并且更容易做出准确判断。
当然,即使有多方面标签数据进行补充,也难以实现对所有号码所有行为的覆盖。但是,这些不同视角的标签数据,经过交叉分析后,可以帮助钱盾更好的清洗原有系统输入和输出数据中的噪声,甚至衍生出新的独特的特征维度。这也是钱盾与其它互联网巨头的反电信诈骗能力背后的最大区别点所在。
三、阿里十大安全黑科技 钱盾独占两席
阿里巴巴在今年下半年公布了其在安全领域的十大“黑科技”,包括电信诈骗识别、全局防钓鱼、数据成熟度模型、御城河信息泄露风险控制、聚安全内容安全检测、实人认证(脸部和声纹)等安全技术。除了上文提到的以恶意号码检测为核心的电信诈骗识别外,钱盾还拥有全局(即智能手机上安装的所有app)的链接防钓鱼这一专利技术。
据钱盾高级安全专家蓝背介绍,钱盾的全局防钓鱼技术是唯一有公安部认证发布消息的端口,无论用户是从短信、浏览器、微信、今日头条等任何渠道点开可疑链接,钱盾都能够进行跨应用提醒。
四、反诈重点在于安全感
除了对诈骗行为通过技术手段进行提醒和拦截外,钱盾的重点,还在于和公安机关联手对诈骗黑产的打击、反诈意识的推广、以及通过保险赔付的方式一定程度弥补受骗这所承受的经济损失。并借此缓解公众对诈骗犯罪的恐慌,提供安全感。
- 去年8月,由公安部刑侦局、蚂蚁金服和钱盾共同开发的伪基站实时监控平台正式上线使用,结合钱盾对钓鱼链接识别和蚂蚁金服的大数据分析能力以及刑侦局的警情数据,对伪基站的地理分布进行跟踪和打击;
- 去年9月,钱盾推出防欺诈险,3.88元就可以享受120万的赔付额(包括最高100万的支付宝账号险和最高20万的银行卡资金安全险);
- 今年7月,12321举报中心正式与钱盾在诈骗数据共享方面达成战略合作,借助12321举报中心与三大运营商建立的诈骗电话举报处置机制,实现更为精准的提醒和封堵;
- 今年8月,钱盾配合长沙市岳麓区公安分局,以介绍诈骗类型以及防骗技巧、推广安装反诈应用等方式,打造“无诈大学城”。
蓝背表示,反诈只是钱盾现有安全能力的部分体现。之后,钱盾还会以SDK的方式与合作伙伴应用进行集成,开放其安全能力,并有可能在出行安全(与地图应用结合)、AI语音应用、物联网安全等领域进行布局。
(责任编辑:安博涛)