李千目:信息安全背景下的数据分析与处理技术研究

  近些年来,互联网技术不断发展,信息化建设进一步提高。随着有线网络、无线网络、传感网络、射频识别等信息通信技术的发展,世界万物之间的信息抽象空间联系与物理联系不断加强。无所不在的网络覆盖的未来逐渐清晰,信息络技术成为未来网络的通信理念。与此同时,因为社会事务对网络技术的依赖性,是否能良好的解决网络安全问题成为保证信息社会良好运行的重中之重。进行数据分析与处理技术研究,从而规避威胁破坏,是处理信息安全问题的良好手段。
 



李千目教授
 

  在2016年的第九届中国信息安全博士论坛中南京理工大学李千目教授对信息安全背景下的数据分析与处理技术研究进行了分析。

  一 网络安全与数据挖掘

  网络空间(Cyberspace)是通过全球互联网和计算系统进行通信、控制和信息共享的动态虚拟空间。数据挖掘改变着我们的生活方式 社交软件数据、电子金融数据的增长 ,云存储技术催化 。数据挖掘深入各行各业,起着重要作用 ,如商业数据(销售记录、利润和业绩) 、医疗数据(诊疗记录,医学图像) 、互联网领域(搜索引擎数据),它也是大数据时代的需要。


  
 

  现在国外很多知名的软件公司都纷纷加入到数据挖掘工具的研发行列,她们研究的数据挖掘工具如Knowledge Studio、IBM Intelligent Miner、SPSS Clem entine、Cognos Scenario等,而国内数据挖掘研究主要集中在高校,如中科院智能信息处理重点实验室开发的MSMiner、上海复旦德门软件公司开发的DMiner、东北大学开发的Scope Miner。

  二 基于隐私保护的数据挖掘

  随着数据挖掘技术的迅猛发展和普遍应用,出于来自社会及法律的压力,在进行数据挖掘的同时,必须对隐私数据提供足够的保护,目前,隐私保护已成为数据挖掘技术领域的研究热点。

  互联网让数据分享前所未有地简化。2007年起,用户每天生成数据量 ; 社交网络催化数据爆炸 ;手机用户数量庞大,增速迅猛 。隐私泄露事件数量逐年上升,超市通过消费记录便可以获知类似怀孕等隐私信息。 通过微博,Twitter等社交网络,可以窥探相关政治主张,常去地或生活习惯等 。

  基于限制发布的技术有选择地发布原始数据、不发布或者发布精度较低的敏感数据,实现隐私保护。 主要集中于“数据匿名化”(Data Anonymization) ,代表性技术包括 k-anonymity、l-diversity 、t-closeness 。

  三 恶意软件检测中的数据挖掘

  恶意软件(Malware)已成为网络空间安全(Cyber Security)的主要威胁之一,它在未经授权的情况下,在系统中进行安装、执行,以达到不正当的目的。广义地讲,恶意软件又称为恶意程序(Malicious Program)或恶意代码(Malicious code)。

  恶意软件的早期表现形式主要是计算机病毒。随着信息技术的不断发展以及互联网的广泛应用,恶意软件呈现出了形式多样化的趋势。

  恶意软件通常可以表现为计算机病毒(Virus)、蠕虫(Worm)、特洛伊木马(Trojan Horse)、后门程序(Backdoor)、RootKit、“间谍软件”(Spyware)、“垃圾信息发送软件”(Spamware)、“垃圾广告软件”(Adware)、恶意移动代码(Malicious Mobile Code)、组合恶意代码(Combination Malware)等形式。

  恶意软件的危害性主要体现在窃取信息、泄露隐私、破坏数据、损害系统、消耗资源等方面。在恶意软件数量大规模增加的同时,其传播速度也急剧加快,这给恶意软件检测技术带来了新的难题。

  四 入侵检测中的数据挖掘

  入侵检测(Intrusion Detection)是对企图入侵、正在进行的入侵或者已经发生的入侵进行识别的过程,旨在识别针对计算机网络或系统的网络攻击(Cyber Attack)。 传统的入侵检测方法在防护网络攻击方面逐渐暴露出诸多弊端,比如严重的误报(False Positives)和漏报(False Negatives)问题。数据挖掘的特性使得它在解决传统入侵检测的误报和漏报问题方面具有优势,目前,已经有大量数据挖掘技术中的数据分析方法用于改善入侵检测的性能。

  入侵检测的分析方法

  •误用检测 :误用检测又称为特征检测(Signature-based Detection),它将已知的入侵活动用一种模式来表示,形成网络攻击特征库,或称为网络攻击规则库。该方法对输入的待分析数据源进行适当处理,提取其特征,并将这些特征与网络攻击特征库中的特征进行比较,如果发现匹配的特征,则指示发生了一次入侵行为。

  •异常检测 : 异常检测搜集正常活动的规律,将待检测的活动与这些正常活动的规律进行比较,对于违反正常活动统计规律的活动,认为该活动可能是入侵行为。

  五 日志分析中的数据挖掘

  日志就是按照一定的规则将操作系统、应用程序、网络设备中发生的事件记录下来,对系统管理、网络安全策略实施状况的评估及其他安全防御系统的评估都是必不可少的证据。起到预防和阻止网络犯罪的作用。

  日志分析8点目的为对用户行为进行审计、监控恶意行为、对入侵行为的检测、系统资源的监控、帮助恢复系统、评估造成的损失、计算机犯罪的取证、调查报告的生成。

  六 网络流量分析中的数据挖掘

  随着网络基础设施提升和移动互联网的发展,如何有效的识别和管理网络上的流量变得越来越迫切。网络流量分类(Network Traffic Classification)成为热点

  数据挖掘来进行流量分析的相关方法,包括关联规则,聚类和分类。关联规则方法主要算法是Apriori算法;聚类算法主要算法有K-均值、K-中心点、DBSCAN、SNN、CURE等算法;分类算法主要算法是决策树、KNN、贝叶斯分类等。

  七 网络安全态势评估中的数据挖掘

  Tim Bass在1999年首次提出了网络态势感知概念,它是利用态势感知技术全局的分析网络环境、快速判断当前形式、对未来进行预测、做出 。态势是指围绕终端设备、通信环境、用户行为等众多因素所构成的整个网络的状态及其变化趋势,具有全局性、多变性、复杂性、不确定性、扩散性等特点。正确反应等这一系列的过程。

  网络安全态势评估

  • 支持向量机方法 :支持向量机(Support Vector Machine,SVM)是一种监督式学习的方法,由Vapnik和Cortes在1995年提出。SVM通过升维和线性化的方式,非常巧妙的把原样本空间中非线性问题转化为高维空间的线性可分问题,可以很好的进行模式识别、分类、回归分析等。

  • 贝叶斯网络概述:贝叶斯网络(Bayesian network)是一种概率图型模型。。作为一种强有力的不确定性推理方法,贝叶斯网络巧妙的利用了先验信息和样本数据,能够避免对数据的过拟合,最终将每个变量相互之间的因果关系用简明的图模型清晰的表达出来,并结合专家知识可以进行定性分析和定量分析,使得推理出来的的结果更具有可信性,也容易理解和接受.
 

  
 

  • 隐马尔可夫方法:马尔科夫过程(Markov process)是一种随机过程。1907年俄国数学家A.A.马尔可夫于提出了马尔科夫链概念,在此基础上发展成为了马尔科夫过程。马尔可夫过程的最大特点是:在已知目前状态的条件下它未来的变化状态不依赖于它的过去状态。举例如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等。

  八 数字取证中的数据挖掘

  数字取证技术是一种存在于计算机及相关外围设备(包括网络介质)中的、在计算机或计算机系统运行过程中产生的、以其记录的内容来证明案件事实的电磁记录物,即计算机证据逐渐成为新的诉讼证据之一。

  •数字取证原则:现场保护,快速收集原则、可靠性原则 、可复现性原则、完整性原则、全程记录原则。

  •数字取证流程 : 数字取证主要包括三个核心流程:数据获取、数据分析、数据报告。


  
 

  •数字取证内容、技术 :数字取证技术有 磁盘镜像,数据哈希验证,存储介质的只读访问,文件签名校验,数据恢复和雕复,信息提取、过滤和搜索(包括正则表达式),数据加密和解密,信息隐藏及显现,数据解析和展现,代码反向工程,数据库、数据仓库技术,并行、分布式处理,虚拟仿真等等。


  
 

  九 网络安全数据集及采集

  数据集简介

  1.DARPA入侵检测评估数据集 :DARPA 98:收集了9周时间的 TCPDUMP网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。DARPA 99:包括覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集。DARPA 2000:一种深度测试,集中地测试入侵检测系统对于某一种攻击的检测效果,对检测算法和检测机制可以进行深入的分析。

  2.KDD Cup 99与NSL-KDD数据集: KDD Cup 99数据集是采用数据挖掘等技术对DARPA 98和DARPA 99数据集进行特征分析和数据预处理,形成的新数据集。NSL-KDD数据集 是对KDD CUP 99的改进,除去了KDD CUP 99数据集中冗余的数据,克服了分类器偏向于重复出现的记录,学习方法的性能受影响等问题。对正常和异常的数据比例进行了合适选择,测试和训练数据数量更合理,因此更适合在不同的机器学习技术之间进行有效准确的评估。

  3.Honeynet数据集:由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式。

  4.Challenge 2013数据集: 与原始数据集相比,经过了数据清洗和时间同步,加入了统一的时间戳,数据都已经通过入库程序导入了MySQL数据库,所以这儿提供的数据集是通过SQL语句从MySQL数据库中导出的,并且同时提供数据表结构。(请注意使用MyISAM的表格式,预计需要数据库磁盘空间30G,文件名后缀中a表示第一周,b表示第二周)

  5.Adult数据集: 该数据集适用于机器学习、数据挖掘和隐私保护等 。该数据集来自UCI,又名人口调查数据集,来自于美国1994年人口调查数据库,共有记录48842条,格式为TEXT,包含14个属性,分别为Age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country。

  6.恶意软件数据集:数据集由West Virginia University的Yanfang Ye 提供,用于恶意软件检测和基于文件说明的恶意软件聚类。

  网络数据包采集与回放

  1.TCPDUMP抓包: TCPDUMP是一个用于截取网络分组,并输出分组内容的工具,简单说就是数据包抓包工具。 TCPDUMP可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 不带参数的TCPDUMP会收集网络中所有的信息包头,数据量巨大,必须过滤。

  2.Wireshark抓包:

  •只能查看封包,而不能修改封包的内容的开源软件 。Wireshark窗口(五部分)为Display Filter(显示过滤器),用于过滤 ;Packet List Pane(封包列表),显示编号,时间戳,源地址,目标地址,协议,长度,以及封包信息。可以看到不同的协议用了不同的颜色显示,也可以修改这些显示颜色的规则 ;Packet Details Pane(封包详细信息),显示封包中的字段 ;Dissector Pane(16进制数据);Miscellanous(地址栏,杂项) 。

  3.网络数据包回放 : Tcpreplay包含的工具 。tcpprep这个工具的作用就是划分客户端和服务器,区分pcap数据包的流向,即划分那些包是client的,哪些包是server的,一会发包的时候client包从一个网卡发,另一个server的包可能从另一个网卡发。tcprewrite这个工具的作用就是来修改报文,主要修改2层,3层,4层报文头,即MAC地址,IP地址和PORT地址。tcpreplay这是最终真正发包使用的工具,可以选择主网卡、从网卡、发包速度等。

  4.网络抓包编程:它包括LIBPCAP抓包 、Socket编程抓包 、Socket()函数 、Bind()函数 、listen()、connect()函数 、accept()函数 、read()、write()等函数、close()函数。

 

(责任编辑:宋编辑)

分享到:

更多
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
  • 微笑/wx
  • 撇嘴/pz
  • 抓狂/zk
  • 流汗/lh
  • 大兵/db
  • 奋斗/fd
  • 疑问/yw
  • 晕/y
  • 偷笑/wx
  • 可爱/ka
  • 傲慢/am
  • 惊恐/jk
用户名: 验证码:点击我更换图片
资料下载专区
图文资讯

聚焦博士论坛——“第十届中国信息安全博士

聚焦博士论坛——“第十届中国信息安全博士论坛”(CISDC2017)暨“第四届中国信息安全人才培养与就业工作研讨会”即将拉开帷幕

2017年第十届中国信息安全博士论坛(CISDC2017)暨第四届中国信息安全人才培养与就业研...[详细]

第九届中国信息安全博士论坛征稿进展

第九届中国信息安全博士论坛征稿进展

本着推动信息安全产业的前行、探索、发展,作为国内第一个专注于高端学术交流的论坛组...[详细]

2016年第九届中国信息安全博士论坛盛大开幕

2016年第九届中国信息安全博士论坛盛大开幕

2016年8月6日第九届中国信息安全博士论坛(2016China Information Security Doctor Con...[详细]

李千目:信息安全背景下的数据分析与处理技

李千目:信息安全背景下的数据分析与处理技术研究

近些年来,互联网技术不断发展,信息化建设进一步提高。随着有线网络、无线网络、传感...[详细]

张国力 :网络空间安全面临的挑战与应对策

张国力 :网络空间安全面临的挑战与应对策略

随着对互联网依赖度的逐渐提高,网络空间已成为各国优先争夺的重要战略空间。网络空间...[详细]

返回首页 返回顶部