<< 返回文章列表

巩飞:构建自治智能的数据库云管平台,加速国产数据库应用进程

2023年5月11日
,
,
z
C
l
o
u
d
,
,
黄舒琪
21
 

导语

4月8日下午,为期两天的第十二届数据技术嘉年华(DTC 2023)在北京新云南皇冠假日酒店圆满落下帷幕。大会以“开源·融合·数字化——引领数据技术发展,释放数据要素价值”为主题,汇聚产学研各界精英到场交流。云和恩墨数据库云管平台产品总经理巩飞在「数智趋势:智能运维与自治」专题论坛发表了题为《构建自治智能的数据库云管平台,加速国产数据库应用进程》的演讲。本篇文章对巩飞的演讲内容进行了整理归纳,供大家学习参考。

近年来,信息安全的急切需求和政策的大力推动,使得国产数据库进入高速发展期,然而其生态的成熟度较之老牌的商业数据库还有较大差距,运维管理有较大难度,一定程度上制约了国产数据库的深入发展;除此之外,企业的基础设施也在发生翻天覆地的变化,私有云、公有云、混合云大行其道。数据库的多样性和基础设施的多样性交织在一起带来了极大的运维挑战。因此,企业急需创新的运维方式,使运维更加高效,业务和数据库更稳定。

巩飞在本次演讲中就云和恩墨解决以上挑战做的探索和实践做了分享。云和恩墨早期仅提供数据库运维管理服务,2014年起,识别到客户的需求和产业发生的变化,因此将专家经验和能力转化为产品和平台能力,让更多的客户享受到高水平的数据库管理服务,zCloud 数据库云管平台就起步和发展于这个时期。经过了多年的发展,zCloud 逐渐融入AI能力,形成智能、自治的多元数据库管理能力,打造全面的企业级dbPaaS平台,并提供了混合云管理能力,满足用户云上发展需求。

DTC2023

从WaaS理念看自治智能的实现

那么怎样才能实现将运维经验代码化形成产品/平台能力呢?将朴素的传统运维抽象一下可以得出,数据库的各种指标就是各种数据,数据与数据之间是相互关联的,这种关联就形成了有用的信息,信息与信息之间产生联系就形成了知识。当特定事情发生时,应用这些知识进行响应或调动一些动作,就形成了简单的智慧操作。这就是云和恩墨提出的WaaS(Wisdom as a Service, 经验即服务)理念的基本原理。

巩飞说到:“WaaS理念在 zCloud 产品中的落地不仅体现在当特定情况发生的时候去做特定的响应,并且能够采集数据库各种各样的指标,通过专家经验和知识对它进行持续的标注分析,当新情况形成时也能自动感知处理。因此,zCloud 的内核有不断积累形成的知识库和知识图谱,以及专家库和人工标注信息点,这是它的核心。”

基于WaaS理念构建的 zCloud 智能运维能力能够覆盖从数据库安装部署到生产上线之后的监控巡检性能分析、容量管理、发生灾难时的备份恢复高可用切换等全生命周期。在国产数据库的落地应用方面,着重做了监控告警巡检和性能分析的重点投入。巩飞举例对这两方面能力做了说明。

01

智能诊断

在智能诊断能力中,zCloud 会对诊断出的故障问题按照重要程度分级标志,如图展示了用户的某一套数据库发生橘色警告问题后自动诊断、响应,没有人工干预的分析结果,智能分析阻塞的原因是SQL语句GC的请求过多导致。

但GC的失败次数过多也可能多种原因造成的,进一步下钻分析原因,可以看到诊断报告显示该故障是由于Linux主机网卡发包失败次数过多造成的,这就便于运维人员总结经验、归纳整理。可以看到,zCloud 的智能诊断能力不仅可以实现分析定位,而且对过程能够留痕,可审计、可追溯

智能诊断包括数据采集问题感知自动诊断识别根因故障自愈五个部分,WaaS知识库再加上标注的知识图谱形成的智能算法主要体现在问题感知、自动诊断和识别根因这三部分,能够覆盖26个大场景,解决80%以上常见数据库问题。

02

性能分析

zCloud 基于WaaS理念的性能分析能力不止实现在 Oracle 这样的老牌商业数据库中,在达梦、openGauss 等国产数据库上均实现了性能分析能力。巩飞对国产数据库的性能分析场景进行了简单的总结(如下图所示)。无论是主动还是被动分析场景,问题的分析路径都比较类似,依据专家经验生成的分析树和积累的知识图谱进行。

以达梦数据库为例,可以看到管理界面清晰明了的展示了分析时段内的资源情况。在数据库性能分析的总览中有很多能力,其中性能分析这一卡片显示出基于知识图谱的分析结果,将采集的数据根据算法汇聚展示出来的时序图,可以从等待事件TopN SQL维度分析,还可叠加性能基线CPU核数CPU使用率分析,能够清晰的展示出性能问题的关键时点和SQL等情况。

其中有一条参考线(图中红线)叫做性能基线,这条线是将达梦数据库过去90%的时间里SQL性能情况根据WaaS内置的算法绘制出的参考线,当一个波动/毛刺刺破了这条线时就需要DBA重点关注。同时,智能发现能力还会对性能衰变或新增的Top SQL进行标注,辅助DBA进行进一步分析处理。

DTC2023

从落地案例看用户价值

在演讲的最后,巩飞为我们分享了四则真实案例。

苏州银行是长三角区域里比较有影响力的区域银行,它使用的数据库种类较多,如 Oracle、MySQL、OceanBase 和 openGauss 等,因此采用了 zCloud 打造数据库统一监控平台,纳管生产环境数百套,实现智能的统一的数据库的性能管控能力。其中重点应用了事前分析预防、事中精准监控、事后智能定位的能力,提前规避了80%的问题。

- 安信证券践行国产化战略,现阶段已引入了较多种类的国产数据库,在运维管理方面需要建设跟商业数据库同样的标准的能力,于是引入 zCloud 构建了平台化的诊断和监控能力并和IaaS、CMDB、ITSM、即时通讯等各种上游系统进行融合,形成信息联动或者智能处理联动,大大增强了数据库管理和对业务线数据库服务能力。

易方达作为基金行业的龙头企业,其基金管理规模已超过2.7万亿元,以前多种商业、国产数据库的运维管理大部分仍以人工为主,压力大,风险高,与投顾业务要求的灵活性以及基金业务的数据高安全性要求形成差距,因此,采用 zCloud 的管理能力将运维效率提升50%,实现数据库运维的敏捷化、自助化、自动化、智能化,保障基金业务系统稳定连续运行。

广东电网积极响应“数字南网”的建设要求,加快部署数字化建设和转型工作,不断上线新业务,引入多种类型的数据库,zCloud 将异构数据库统一纳管,形成坚实有力数据库管控能力的底座,为业务提供强大的支撑力。

DTC2023

结语

zCloud 是云和恩墨最早将运维管理工具化、平台化实现出来的代表产品,至今已经在功能钻研和实践场景中打磨了8年,形成了完善的功能和开放的生态兼容能力,累计帮助八大关键行业的数百家企业建设自动化、标准化、智能化的异构数据库运维管理体系,减少运维成本,提升数据库管理效率,保障用户安全稳定高效运行。

“路漫漫其修远兮,吾将上下而求索。”简化应用、为用户提供企业级数据库产品服务能力以及端到端的保障是我们不懈追求的目标,我们定将为此奉献全部力量。