中国人口与发展研究中心信息总监冯方回
在第四届中国CIO年会下午的信息安全分论坛中,中国人口与发展研究中心信息总监冯方回给我们带来的以“云计算体系及其安全”为题的精彩演讲:首先看一下云服务的服务层次。在云计算当中,提供服务类型可以划分为四个层次。第一个就是应用层,第二是平台层,第三个是基础设施层,第四个是虚拟化层,这四个层次每一层都对应着一个子服务集合,为云计算服务层次有一个展示。
作为云计算的服务层次,是根据服务类型加以划分的,对于大家熟悉的计算机网络体系结构层次的划分不同,在计算机网络当中每个层次都实现了一定的功能,层与层之间有一定的关联,云计算体系结构当中层次可以分割,第一层次可以单向完成某一项用户的请求,而不需要其他层次提供服务或者支持。所以在云计算服务体系结构当中,各层次与相关的云产品是互相对应的。比如说应用层对应的是软件及服务SuS,作为平台产品就有PaaS,基础设施层对应IaaS,虚拟化层对应硬件即服务结合PaaS提供硬件服务,包括服务器集群及硬件检测服务,这样把层次给分开。
作为云计算的技术层次和云计算的服务层次概念是不太一样的,后者从服务角度来划分云的层次,主要突出云服务能给我们带来什么,而云计算技术层次主要是从系统属性和设计的思想角度来说明云是对软硬件资源在云计算当中所充当的角色,从云计算的技术角度来分,云计算有四个部分构成,第一部分是物理资源、虚拟化资源,中间件管理部分和服务接口,我们会给出一些图示。
下面谈谈服务接口。它是统一规定在云计算时代所使用计算机的各种规范,云计算服务的各种标准,用户端与云端交互操作的入口,可以完成用户或者服务的注册,对服务起到一些定制和使用的作用。
大家看看这张图,云计算的技术层次,它所牵扯到各方面的内容。首先是物理资源,物理资源包括服务器的集群,网络的设备,存储设备,数据库等等。作为虚拟化资源,有计算的资源库,网络资源库、存储资源库和数据库的资源库,通过虚拟化技术给它整合在一起。 服务管理层的中间件,资源管理、安全管理,还有服务接口。
云计算中间件,在云计算技术中间,云计算体系结构中的管理系统,对标识、认证、授权、目录、安全性等服务进行标准化操作。用户管理包括用户的身份认证,用户的许可,用户的定制管理。资源的管理包括负载的均衡,资源的监控,故障的检测。安全管理包括身份认证、访问授权,安全审计,综合防护等等。硬向管理包括硬项创建等等这些内容。虚拟化资源实现就有一定的功能,比如计算池、存储池、数据库的虚拟池,通过这些软件技术来实现相关的虚拟化功能,包括虚拟环境、虚拟系统、虚拟性平台,实际物理上是并不存在的,但是我们可以给它虚拟化处理。作为物理资源支持计算机正常运行的设备和技术,价格低廉的PC机,可以通过现有的网络技术,将分散的计算机组成一个超强功能的集群,用于计算和存储的云计算操作。
在云计算时代,本地计算机可以不再像传统计算机那样需要一些空间,硬盘,大容量的内存,你只需要一些必要的硬件设备或者是网络设备,通过联网就可以连接到设备上去,进行一些应用。
我们下面介绍一下典型的云计算平台。作为云计算的研究,吸引了不同技术领域的巨头,亚马逊虚拟化技术提供云计算的服务,他们推出S3的服务,来提供可靠、快速、可扩展的网络存储服务。可弹性可扩展的云计算服务器就是EC2,这是亚马逊的弹性云,这是它的一个特点,它采用的是虚拟化技术,提供一个虚拟的服务器,让用户通过互联网的应用程序。下面通过Google公司的云计算核心技术和架构做基本讲解。
Google的云计算平台能够实现大规模的分布式计算和应用的服务程序,这个平台包括分布式处理技术,分布式的文件系统GFS,结构化的Big Table存储系统以及Google其他的云计算支撑要素,这是它的基本框架。
现有的云机损对资源层、平台层和应用层的虚拟化以及物理上的分布式集成,将庞大的资源整合在一起。更重要的是,云计算不仅仅是资源的简单汇集,提供一种管理机制,作为虚拟资源池进行使用,并赋予开发者获取资源、使用资源的自由度。
下面讲讲Mapreduce的分布处理技术。Mapreduce是Google开发的变成工具,是云计算的一种核心技术,一种分布式运算技术,也是简化了分布式的编程模式,适合于大量数据的计算,用于解决问题的程序和开发模型。Mapreduce是非常好的一个云计算的工具。Mapreduce是给它拆借成为Map映射和Reduce两部分方式,将相关区快进行分配,达到初步计算的效果,然后再通过Reduce的形式,将结果进行汇总,所以这是两部分,Map和Reduce具有一定的关联性。
云计算体系结构,Mapreduce有两个变量,可以是简单的数据,也可以是一组数据。在Map当中是把数据并行,把数据分开,而reduce可以把数据合在一起。
下面谈谈Hadoop框架,它在Google发表了对它的一些分析Mapreduce以后,后来又推出了Hadoop系统,它可以支持大的文件系统,而且是超大的文件系统,是可以扩展的、结构化的,具备日志分布式的文件系统,支持大型、分布式的大数据的读写操作,能把坏的文件给补上,能保证文件的完整性。分布式数据库是一个有序的、稀疏、多维度的映射表,Hadoop框架具有高浓缩性,以及对数据读写的高准确率,能够处理失败的节点,GFS分布式文件系统提供数据存储,可以处理海量数据的并行程序,并且应用于大规模集群的服务器分布上。
下面我们看看作为Google云计算的执行过程,通过这个图我们可以看出,它怎么样去完成的,它的流程是什么样的。我们给出这个图就是利用Hadoop这个平台,下面的就是分层次的结构化的模块,它们既是独立的,又互相有所联系。通过这个图分别来介绍一下:
1、将要执行MPI的程序复制到Hadoop的框架当中。
2、Master选择哪些程序。
3、所有数据模块到执行的Map程序,进行Map的切割成小块数据。
4、将Map后的结果输入Worker机器。
5、对结果进行整合、汇总、排序,同时执行Radoop的程序。
6、将结果输出给用户。
为了充分利用它的可靠特性,在数据上传和下载过程当中,根据Worker的节点,指定时间内反馈信息判断节点的状态是正常还是死亡,如果节点死亡了,就把正在执行的任务我们来分配给别的节点,确保文件数据的完整性。
作为云计算的应用,我们有很多的方面,表现了多种形式,简单的云计算在日常网络应用当中是随处可见的,比如腾讯的QQ空间,提供在线制作的flash图片,彩色秀提供各种文字图片的处理。
对于云计算的应用我们大致可以分成几方面,一个是Saas软件服务,通过互联网提供软件给用户,用户根据自己实际需要要软件厂商定制或者租用适合自己的应用程序,通过租用方式使用基于web软件来实现企业经营活动,软件厂商来负责管理和维护软件。对于许多小型企业来说,Saas是采用先进技术的一种最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要,Saas为中小企业带来了他们应用IT的一个新方法和新途径,给他们带来新的生机,很多中小企业逐渐的把他们移植到Saas这个平台上面。
(责任编辑:)