容灾解决方案



我们认为常见故障、灾难场景如下:

●  实例故障
    •  数据库实例宕机;
    •  O数据库实例挂起;
    •  数据库软件损坏
●  服务器故障
    •  硬件损坏
    •  主机异常宕机;
    •  停机维护;
    •  本地磁盘、文件系统故障
    •  断电等故障
●  数据库故障
    •  数据库文件错误
    •  数据库坏块等
    •  数据库 Bug等
●  存储故障
    •  存储阵列故障
    •  存储链路故障
●  机房灾难(站点级故障)

    •  地震、火山、台风、火灾等非人为可抗灾难,导致主机、存储、网络、应用全部不可用
●  运维故障
    •  文件删除
    •  磁盘格式化
    •  磁盘误操作
●  逻辑错误
    •  应用软件Bug
    •  人为删除业务数据等
●  其他

   

方案介绍


针对上述故障场景,我方结合RAC/DataGuard/Flashback/Extended-RAC/CDP等技术手段,进行了分析、论证,设计出如下2种架构来提升数据连续性:
●  RAC +DataGuard+ FlashBack
●  RAC+CDP


方案一:RAC+DataGuard +FlashBack


1565157410087092898.png

RAC+DataGuard +FlashBack架构图


●  架构描述

1. RAC技术的采用,能够完全防范主机故障、实例故障。
当故障发生时,正常节点能够平滑接管应用请求,正常提供数据库访问服务,无需人为操作干预。业务不会造成任何停滞,亦不会造成任何数据丢失;
2. 异地DataGuard技术的采用,能够防范数据库、存储阵列、站点级、运维故障。
当故障发生时,Standby数据库以FailOver方式,可进行读写访问,并提供对外服务。发现故障后,需要手动对Standby数据库进行FailOver操作,可在5分钟之内完成。若采用同步传输模式,则不会造成数据丢失;若采用异步传输模式,则可能存在极少量数据丢失(5-10分钟);
3. FlashBack功能的开启,能够防范任何逻辑故障。
当故障发生时,基于Standby数据库进行FlashBack(闪回)操作,可将数据库回退至逻辑故障之前的状态,经验证后进行FailOver操作,并提供对外服务。闪回操作一般可在10分钟之内完成,并伴随极少量数据丢失。(逻辑故障必然会造成数据丢失,即RPO>0)

●  提示:
1. 该架构可防范任何已知故障灾难场景,并具有快速救灾能力。
2. 对于Oracle 11gR2及以上版本,DataGuard Standby数据库可以在日志同步的同时,以Read Only模式打开,对外提供只读查询服务,可实现读写分离。


方案二:RAC+CDP


1565157599240007971.png

架构图


●  架构描述

1. RAC技术的采用,能够完全防范主机故障、实例故障。
当故障发生时,正常节点能够平滑接管应用请求,正常提供数据库访问服务,无需人为操作干预。业务不会造成任何停滞,亦不会造成任何数据丢失;
2. ASM Redundancy技术(或 CDP 镜像卷技术),能够防范存储级故障。
当存储故障发生时,ASM磁盘组可由故障组(Failure Group)继续提供存储访问,切换无需人为操作干预。业务不会造成任何停滞,亦不会造成任何数据丢失;
3. CDP多点快照(TimeMark)技术的采用,能够在数据库、存储阵列、站点级、运维故障的场景下进行迅速恢复。
4. CDP连续I/O录像(Journal)技术,可提供I/O级粒度的恢复,能够完全防范逻辑故障;

●  提示
1. 该架构可防范任何已知故障灾难场景,并具有快速救灾能力。


方案三:ODU紧急数据救援

在上述2种架构下,业务系统已经对已知的所有故障、灾难场景,均具备了防范能力,数据连续性可以达到了极大程度的提升。
但是,严格意义上来说,故障和灾难的发生,毕竟是复杂多样的,必然还存在着一些灾难场景,是现阶段无法假象和模拟的,也是现有技术手段无法完全支撑的。因此,对于这些极端灾难或故障,我们也应该建立相应的防范措施。

基于上述考虑,我方给出了ODU紧急救援的补充方案。

1565158037145095544.png

ODU介绍

若配备ODU数据救援服务,当极端故障灾难来临时,数据便具备更多的救援手段,最大限度地降低数据丢失,并使得业务以最快速度恢复。


方案优势


1. 实时备份,RPO达到秒级
2. 表级恢复,故障恢复时间大大缩短
3. 长期归档,自动管理备份生命周期
4. 异地灾备,构建数据库备份中心
5. 数据兜底,最大程度上保证数据不丢失


相关案例
四川电信
行 业:通信
项 目:核心系统容灾建设
服务价值:通过建设容灾系统,生产数据得以保护;通过定期容灾切换演练,确保在出现异常时能快速切换到容灾系统;同时容灾系统承担了对外查询业务,使原系统负载下降,容灾系统得到合理利用。

恒丰银行
行 业:金融
项 目:数据库Paas平台建设
服务价值:云和恩墨与恒丰银行联合开发的金融云数据库云管平台,达到金融级要求的数据库平台,该平台运行在恒丰银行的金融云IaaS平台之上,支持两地三中心的双活容灾架构,为恒丰银行自身已经中小金融行业客户提供高可靠 、高安全的数据库平台。

中国大地保险
行 业:金融
项 目:核心系统容灾咨询
服务价值:通过专业的容灾咨询服务,结合主流应用级容灾数据中心建设思路与方案,设计适用于客户关键应用系统应用级容灾数据中心与用于过渡的应急环境的解决方案,并做好后续的实施路径规划,保障业务的连续性 。