语言
<< 返回案例列表

河北电信CRM3.0:PaaS来了,你的运维工作准备好了吗?

2020年9月18日
,
,
P
a
a
S
,
I
T
,
894

云和恩墨以用户需求为中心,搭建“IT架构图”系统,解决河北电信CRM3.0系统分布式架构下PaaS平台的运维难题,助力电信行业IT架构转型升级。

随着互联网化、移动化、云化的信息发展趋势,IT信息化技术成为电信运营商驱动业务发展的重要因素,并成为了电信运营商业务战略制定的重要依据。
业界有句常被提及的话,“无云化,不5G”。从运营商过去几年布局看,云化建设已成为运营商面向5G时代的共识。
而在云化中,业界也给运营商提出了多个建议:

首先,运营商云化要实现“建好云、用好云、管好云”,关键之一是要经过不断实践摸索,形成合理的业务上云规范,才能真正在把云建好的基础上,把云用好,进而管好。

 

其次,运营商云化建设需要实现架构革新,使用开源或者国产架构替代传统的IOE架构。传统上业务数据库主要通过部署小型机+国外高端存储支撑。5G时代面临海量业务的数据库处理,传统的“IE”架构瓶颈是网络和存储瓶颈。

 

此外,运营商需要新的存储系统,构建分布式存储资源池,实现强大的横向弹性扩展能力,构建统一的存储资源池,提升资源利用率,降低运维复杂度。

河北电信CRM3.0系统基于大量开源组件进行二次开发实现了“平台+应用” 的系统架构;解决了传统架构难以扩容及快速开发部署等制约企业发展的瓶颈问题。分布式系统的应用极大的提升了业务性能,消除了传统的性能瓶颈点,但给运维工作带来了极大的挑战。
云和恩墨以用户需求为中心,搭建“IT架构图”系统,解决分布式架构下PaaS平台的运维难题,助力电信行业IT架构转型升级。

云时代的运营商,IT架构有了新选择

云服务时代,面对海量数据的存储分析和互联网化进程下应用快速更改、迅速扩展的需求,选择高效、低成本的分布式的PaaS架构是传统运营商的必然选择。
PaaS敏捷且灵活,在资源层面提供底层计算、网络、存储、虚拟化、中间件等服务,在部署上提供一整套可自定义的部署工具,通过一个简单可操作的平台来帮助开发人员运行和管理应用;分布式在海量数据的处理上有着无可比拟的优势,能轻松面对海量数据和高并发的请求处理,能很容易地通过添加设备扩容满足需求,而不需要影响开发,且能够实现灵活部署迅速扩容,避免资源的浪费。
IT架构的升级之路
河北电信CRM3.0系统基于大量开源组件进行二次开发实现了“平台+应用” 的系统架构;解决了传统架构难以扩容及快速开发部署等制约企业发展的瓶颈问题。

高效的分布式PaaS平台运维成难题

河北电信新部署的分布式系统的应用极大的提升了业务性能,消除了传统的性能瓶颈点,却给运维工作带来了极大的挑战:
1. 大量使用了MySQL、Redis、Kafka、Docker、K8s、ZooKeeper、TeleDB、Oracle GoldenGate等技术;需要监控的范围成倍增加
2. UDAL中的Schema(分布式数据库)数量高达数十个,涉及了上千个分片,部署在上百台Linux中,又通过Oracle GoldenGate技术将整个分布式系统的增量数据同步给数套汇聚库中;
应用之间关联关系十分复杂
3. 日志体系及数量过于繁多,难以监控;
4. 出现问题,涉及多个组件、过台机器,难以找到分析入口,极大增加了故障处理时间。
              
分布式组件运维节点、类型骤增
传统的分布式运维,我们往往采用Ansible软件配合Playbook脚本的方式,能够同时运维多套Linux服务器,方便高效。然而同时也隐藏着诸多隐患:
1. Ansible主机往往要通过互信或者明文密码配置的方式来访问主机。往往运维主机本身也没有特殊的安全管控,导致运维人员权限过大、安全风险也很大。
2. 分布式架构使业务从烟囱架构转变为平台架构,传统运维模式单点连接运维,即使操作失误也只会引起一个节点出现故障,Ansible将会导致整个平台出现风险。
3. Ansible在非Playbook的运维模式中,每次执行命令均需要输入节点组,增加了运维命令的复杂度。传统运维中,连接上某个节点关闭其他节点可以有效避免命令误执行问题,但Ansible场景中,每条语句均要核查执行的节点。
总结下来就是,Ansible权限过大,语句复杂,滥用Ansible一定会大幅增加运维风险。
传统运维中我们只需DBA、中间件工程师即可做好运维工作,但分布式环境中,面对大量分布式组件和复杂架构,必须借助工具手段来提升运维效率,保障数据安全。

IT架构图让你的PaaS运维有迹可循

因此,在生产中我们非常需要一款可以灵活配置各个组件逻辑关系的监控软件,可以采集性能数据并能有效的组织各个监控软件中的数据,给我们提供一个运维门户的功能。
云和恩墨以用户需求为中心,搭建“IT架构图”系统,解决分布式架构下PaaS平台的运维难题,助力电信行业IT架构转型升级。“IT架构图“系统从运维可视化、分布式组件支持、问题定位分析、资源管理、运维策略等角度,全方面实现了运维自动化。
平台功能
1. 复杂分布式环境图形化演示
实现组织化、关系化、图形化展示IT架构,并支持实时同步、新增导出,即使新手也能迅速入门摸清分布式系统的组织架构。集成K8S,PaaS,SaaS,打通运维工作中的任督二脉。
       

系统架构一目了然
 
     
自定义产品和模型关系
2. 分布式组件支持
我们会提前设计好左侧各类产品模型,并提供标准化的Python脚本。用户通过提供数据源后就可以将这些组件直接同步到指定的架构图上。我们也可以针对各种网管类、监控类系统对接,从而实现将数据同步到我们架构图中。
             
丰富的分布式组件支持
3. 快速定位问题解决方案
我们提供了自助性能分析,事件影响范围分析事件关联性分析,事件订阅化管理等功能。从而助力实现快速问题定位。

问题定位与追踪
追踪问题爆发点:首先我们在图上发现了有3个WARNING级别的事件,通过2步下钻的操作,快速定位到是Linux引发的告警。
       
定位问题后可实现一键跳转,进行处理
一键跳转,快速响应:每一个信息都支持传入源信息,比如Telemonitor告警事件可以直接指定一个合理的Telemonitor连接,这样在我们系统中可以直接跳转到Telemonitor具体页面。
       

对事件追本溯源,跟踪分析,避免更大范围的影响
一键分析事件影响范围:我们发现事件后,可以迅速分析其爆发点,和辐射范围。
       
分析故障之间的关联关系,是否存在互相影响的情况,为后续运维工作打下基础
事件关联分析:同一时刻发生了很多事件,各个事件之间可以一键式分析与其他事件之间的关联性关系。如果发现了关联性关系,则会生成上述图形展示,在分布式环境中,这类分析将会有巨大价值。
4. 摸清家底——资源标签化管理分析
通过资源标签化管理,能够摸清系统资源分配情况,比如你有多少资源,已经分配了多少,具体哪些组件占用了资源,资源类型自主可配。比如IP ,端口 FS 目录资源等等。为后续的规划设计做好准备。
我们提供资源标签化管理,系统自动识别资源并构建资源关系。并最终实现资源图谱展示、资源图谱分析。
首先管理产品模型时我们可以配置相应的资源项:
  • 每个模型可以对外提供的资源标签,提供资源数量可以参考哪个具体属性。这样我们录入产品实例的同时,资源标签将自动生成,并根据具体的参数值发生变化。

  • 配置其他类型可以通过某种关系消耗资源。比如我们常用的部署关系。

  • 配置其他类型使用资源的具体属性表达式 。我们会在录入属性或者属性发生变化时根据表达式自动计算资源的分配,刷新资源视图。

 

 

从而我们可以分析任意架构图节点的资源供给情况,与使用情况。并且可以完美追溯每一个资源提供节点所提供的节点被哪些节点使用,并可以实现导出。
我们设计下这一切一次性配置完成就无需再次维护,大幅提升我们维护资源的效率,也更加方便我们对后续资源的规划。
 
资源配置的示例
5. 高效自助运维解决方案
通过Ansible+模块命令白名单结合IT架构图,实现日常巡检类工作、故障定位类工作的高效实施。通过集成Playbook实现标准化运维能力发布。并且每项能力可以完成某种特定的运维功能。实现运维工作无密码化,角色化,大幅降低运维压力难度的同时大幅提升运维安全。
 
角色化管理,实现高效运维

携手恩墨,敏捷运维赋能云化建设

 
通过本次项目的建设,河北电信进一步提高了系统工作的效率与质量,规范系统运作流程,实现运维的自动化,提升效率,保障系统平稳运行。
另外,目前已建成的运维管理系统拥有优秀的综合管理和集成能力,这意味着未来通过运维PaaS平台,我们将可以快速实现功能搭建和拓展更加丰富的运维应用,以适应各种场景化运维的需求。
传统业务对应用的开发和上线节奏没有太多要求,底层架构相对简单。在这种情况之下,企业的开发模式以传统的瀑布式开发为主,流程化的运维活动仅仅起到了对内部提供支持和巡检的作用。运维对公司的价值就是保证应用系统的稳定性、可靠性和可用性。
进入DT时代,一方面,云计算、大数据等新型的技术架构的引进,加大了IT资源监管的复杂程度,安全问题随之面临一定挑战;另一方面,随着业务量的激增,运维也需要在保证业务持续运行的同时,给技术人员更多的精力,去发现数据背后的价值。
云和恩墨愿与企业共同进步,定制专属你的运维工具,助力分布式架构敏捷运维,提高效率,降低成本,助力业务发展,共同迈入5G时代。