互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求。然而,随着互网络的快速发展,网上信息量呈指数增长。面对海量的信息,用户无法从中获取对自己真正有用的信息。以电子商务站点为例,随着电子商务规模的不断扩大,商品的数量和种类快速增长,消费者需要花费大量的时间才能找到自己想要购买的商品。
张付志
在今年的第九届中国信息安全博士论坛中燕山大学的张付志教授提出了“构建可信的电子商务推荐系统”。
一、推荐系统及其安全脆弱性分析
1.推荐系统:根据用户的兴趣偏好,将用户感兴趣的项目(例如,电影和产品等)推荐给用户的软件工具,能够帮助用户决定应该购买什么商品、看什么电影、听什么音乐或者阅读什么新闻等。推荐系统作为一种信息过滤技术,为解决互联网上“信息超载”问题提供了一条有效途径,在电子商务和网络信息服务中得到了广泛应用。
推荐系统的主要功能:增加产品销量、销售多样性、增加用户满意度、更好地了解用户需求、发现更好的产品。
2.欺诈攻击与攻击模型
向协同过滤推荐系统注入大量虚假用户评分,使系统的推荐结果产生严重偏离,这种行为称作欺诈攻击(Shilling Attacks)、用户概貌注入攻击(Profile Injection Attacks)或者推荐攻击(Recommendation Attacks)。
攻击模型(Attack Model):攻击者根据有关推荐系统、评分数据库、项目以及用户等方面的知识,建立攻击概貌(Attack Profiles)所使用的策略。攻击概貌的一般形式如下:
攻击的目的与分类
攻击者实施攻击是受利益驱动的,根据攻击目的不同,欺诈攻击可分为推攻击(Push Attacks)和核攻击(Nuke Attacks)两种类型。
1)常见攻击类型:均值攻击(Average Attack)、随机攻击(Random Attack)、流行攻击(Bandwagon Attack)、分段攻击(Segment Attack)、高级用户攻击(Power User Attack)和高级项目攻击(Power Item Attack)等类型。
2)模糊攻击: AoP(Average over Popular items)攻击、Average(Random)Attack with user shifting and target shifting
面对各种欺诈攻击,如何确保系统推荐的可信性是推荐系统研究面临的一大挑战,也是电子商务推荐系统健康发展和普及应用中迫切需要解决的问题。
二、可信推荐国内外研究现状
1.欺诈攻击检测(Shilling Attack Detection)
1) 有监督检测
以已知类别用户概貌集为训练集进行特征提取,基于有监督学习构造分类器,其代表是支持向量机(SVM)和决策树,在攻击概貌未知或模糊的情况下检测效果差。
2)无监督检测
不需要训练分类模型,利用攻击概貌之间的高度相关性区分攻击概貌和真实用户概貌。其代表是PCA方法,需要预先知道注入攻击概貌的数量,在实用性方面存在局限性。
2.鲁棒推荐(Robust Recommendation)算法
推荐系统的鲁棒性:指在用户评分数据库中包含一定比例的虚假评分或者评分噪声时,系统依然能够做出稳定的推荐结果。
1) 鲁棒矩阵分解
在基本矩阵分解过程中融入鲁棒参数估计
2) 基于关联规则挖掘的推荐算法
基于关联规则进行项目推荐
3.信任感知推荐(Trust-aware recommendation)
信任在Web 2.0时代更为重要,Web 2.0的重要特征:“协同”和“分享”—Social Web。Social Web环境下的信任域(Trust Domain)
Social Web中的信任域
4.基于信任的推荐策略
将信任引入推荐系统可以提高推荐的可信性。主要有三种策略:基于信任的加权策略(Trust-based weighting)、基于信任的过滤策略(Trust-based filtering)和基于信任的加权与过滤相结合的策略(Combining trust-based weighting and filtering)。
三种推荐策略在基于隐式信任的推荐系统和基于显式信任的推荐系统中所采用的评分预测公式也有所不同,具体如下:
融合信任的评分预测
三、我们在可信推荐方面的研究
1.基于Hilbert-Huang变换的欺诈攻击在线检测方法
针对有监督检测方法高度依赖真实用户和攻击用户评分统计特征差异的局限,根据项目的新颖度和流行度,分别为每个用户构建新颖项目评分序列和流行项目评分序列,利用Hilbert-Huang变换(HHT)方法对评分序列进行变换,提出13个基于Hilbert谱的特征,作为欺诈攻击的检测特征。根据提出的13个特征,利用支持向量机(SVM)构建在线分类模型(HHT–SVM),实现对欺诈攻击的在线检测。
2.基于核函数与Welsch加权M-估计量的鲁棒协同推荐算法
针对基于矩阵分解的推荐算法在面对欺诈攻击时存在的脆弱性问题,提出一种基于核函数与Welsch加权M-估计量的鲁棒协同推荐算法。首先,采用基于中值的方法计算用户、项目偏移量,限制攻击概貌对用户、项目偏移量的影响;然后,利用高斯核函数计算用户相似度,得到相似用户信息;最后,将用户、项目偏移量、基于核函数的相似度与矩阵分解模型相结合,并引入Welsch加权M-估计量,实现对用户、项目特征矩阵的鲁棒参数估计。
3.基于非线性特征和Cauchy加权M-估计量的鲁棒推荐算法
针对现有鲁棒推荐算法在面对欺诈攻击时精度损失大和鲁棒性较差的问题,提出一种基于非线性特征和Cauchy加权M-估计量的鲁棒推荐算法。首先,采用核主成分分析方法提取用户评分矩阵的非线性特征,以充分挖掘用户(项目)之间的内在关联;然后,引入鲁棒统计中的Cauchy加权M-估计量,并联合矩阵分解模型对用户和项目特征矩阵进行鲁棒参数估计,以限制攻击概貌对参数估计过程产生的影响;最后,设计相应的鲁棒协同推荐算法,并在MovieLens和Netflix数据集上对算法的有效性进行了评价。
4.基于模糊核聚类和支持向量机的鲁棒协同推荐算法
针对现有推荐算法在面对托攻击时鲁棒性不高的问题,提出一种基于模糊核聚类和支持向量机的鲁棒推荐算法。首先,根据攻击概貌间高度相关的特性,利用模糊核聚类方法在高维特征空间对用户概貌进行聚类,实现攻击概貌的第一阶段检测;然后,利用支持向量机分类器对含有攻击概貌的聚类进行分类,实现攻击概貌的第二阶段检测;最后,基于攻击概貌检测结果,通过构造指示函数排除攻击概貌在推荐过程中产生的影响,并引入矩阵分解技术设计相应的鲁棒协同推荐算法。
欺诈攻击的概念自2004年提出以来,受到了广泛关注,并取得了大量研究成果。但是,可研究的空间仍较大,体现在:(1)新攻击类型不断出现,现有攻击检测模型的特征提取大都从评分分布或评分序列入手,并且是针对已知攻击类型,对未知类型攻击检测效果不佳;(2)已有攻击检测模型对模糊攻击检测效果不佳;(3)大数据环境下的鲁棒推荐问题。因此在未来我们需要进一步研究的问题有针对新攻击类型的特征提取与检测模型、基于用户行为的欺诈攻击检测、鲁棒概率矩阵分解、面向大数据的鲁棒推荐模型。
(责任编辑:宋编辑)