不管你称其为数据引力还是数据惯性,从存储基础设施的一个位置移动数据到另一个位置是个艰难的过程。至少,过去是这样。而现在,在合适的工具和基础设施条件下,传统的数据迁移过程中涉及到的许多困难点都可以消除。采用的方法只是提前规划和采用恰当的技术。
为什么数据迁移在过去是个问题
一份最新的Hitachi Data Systems报告详细的整理了来自IDC和451个集团公司的调研。报告表明数据迁移项目占据了大型企业IT项目的60%,并且,几乎一半的IT预算用于运维开销——一个明显的信号即数据迁移消耗了大部分的IT预算。据估计,迁移1TB数据的成本是1万5千美元,因此,数据迁移对很多IT部门来说是令人发憷的。而数据迁移困难之处,有许多原因。
数据迁移困难的一般原因包括:
复杂性。当今许多庞大的存储阵列已经变得很复杂,支持几千个LUN或卷,然后连接到许多主机。而这些主机通过光纤通道(FC),iSCSI和 FC over Ethernet 网络连接。阵列的高级功能部署包括了本地复制(快照、克隆)和远程复制(同步和异步的复制),同时也考虑了不同存储系统间应用的依赖性。当代磁盘阵列一般有多层存储,而且具有性能管理功能比如动态分层,以实现产品最优I/O响应时间。
技术依赖。包含许多主机的存储阵列系统已经部署了多年,所以,硬件和软件设备,固件和设备驱动可能变化很大。在数据迁移时这些组件都可能需要升级或者刷新。在某些情况下,设备可能不再被支持,这就表明了一个风险项,或者表明需要投入成本来取代硬件。
运维依赖。大多数企业IT环境要求24/7运行,计划中的数据迁移停止是困难的,或者不可能。当复杂的服务器依赖存在以及业务连续性/灾难恢复等服务级目标需要保持时,就要面临这种情形。大量的时间花在了计划和再计划的数据迁移,以及对改变的组织进行协商。
存储容量规模。存储阵列可以存储大量的数据。最新来自EMC和日立的单个大阵列的存储容量超过4PB。数据迁移速率限制也表明PB量级的数据迁移将花费很长时间来传输,在此期间,必须保证对生产应用没有或者很小的性能影响。
成本。数据迁移需要认真规划,并有效执行,从项目经理到存储架构师、应用开发者,都需要随时验证数据迁移成功完成与否。在迁移中也有成本,需要维护设备。所以,迁移所需时间越长,保持额外复制硬件的成本就越高。
当然,以上的这些问题仅仅影响设备到设备间的数据迁移。把应用或者数据移动到公共云上的这种数据迁移所遇到的问题就不同了。如果公司基于新的技术比如Hadoop构建大数据池,这种情况下的数据迁移还需要考虑其他问题。很明显,不同企业间的数据迁移也是个问题。
最后,任何数据迁移策略的目的都是提高数据移动性。镇对上面已经讨论的宽泛的迁移类别,我们接下来就分析一些迁移技术和架构设计以其帮助我们解决一些常见的迁移问题。
阵列间迁移
数据迁移里最常见的一个需求就是在存储阵列间或者存储设备间移动数据。目前我们考虑块级别的协议数据的迁移,一般的方法有:
基于主机的迁移。数据在主机级别进行移动,通过卷到卷的数据拷贝进行,其中旧卷和新卷属于主机。拷贝过程可能很基础(比如工具Robocopy),也可能很复杂(使用逻辑卷管理器等)。基于主机的迁移提供了一个再次布局数据的机会 。
基于阵列的数据迁移。利用阵列级数据迁移工具在阵列间进行数据迁移。对于一致性传输(源和目标设备都是同一个厂商或者相同型号),可以使用原生的复制工具,尽管有一些限制。异质迁移就复杂了,虽然有一些工具比如EMC的Open Migrator或者HP 3PAR的Online Import 允许第三方存储阵列导入数据到自己的阵列中。
(责任编辑:安博涛)