珠江数码集团是华南地区最大规模的广播电视网络运营商之一,已建成了覆盖广州各区的有线传输与无线传输互为延伸、互为补充的双向广电宽带信息网络,提供有线数字电视、宽带接入、高清互动电视、移动数字电视、信息内容集成等多样化、跨平台的多媒体信息服务。
珠江数码的IT日常运维工作都是遵循传统而保守的方式,核心业务系统(计费系统、增值系统、容灾系统、排队机系统、Boss系统等等)经常出问题,也没有有效的预警机制,无法快速定位根源,分析处理故障方面一直处于被动、用户投诉时才去处理的状态。整个网络流量一直没有进行监控,用户老是说网络慢,到底哪里出问题没有一个数据分析结果去呈现给用户方,网络的配置一直都是采取人工备份,没有统一、集中监控的平台等等……如果需要针对整个网络规划做调整,没有有效的分析数据作为依据,整个运维过程是没有相应有效的报表数据记录,导致无法很好规划和调配整个IT运维支撑中心的资源。
针对以上的需求,通过部署了卓豪综合IT管理平台(OpManager),并配合应用性能管理(APM)、流量分析(NetFlow Analyzer)、网络设备配置管理(NCM)以及存储网络管理(OpStor)模块,帮助珠江数码实现统一IT运维管理。
1、针对网络基础架构、业务系统的组成实现集中、统一的监控管理(通过自定义首页集中了解网络基础架构、业务系统运行的状态,告警的相关信息);
2、通过OpManager监控整个网络基础架构,网络核心设备的运行状态,通过STP端口状态的监控,更深入的了解到整个网络链路路径选择是否是最优化,更好的掌握到网络链路的状态,为日后的网络建设规划提供了有效的数据依据。
3、APM监控集团的业务系统,能够提供根源性分析与定位,有效的节省了运营支撑中心维护人员的排查时间,快速有效的解决故障,有效的预警机制,使故障在用户投诉之前得到控制,提高了运营支撑部门的工作效率与服务质量。
4、APM的自定义监控功能,使业务系统的应用层面实现更深层次的监控,其自定义监控功能有效的支持IBM小型主机的硬件故障报警、数据库自定义需求监控(如:RAC、指定会话数监控、实例状态监控、数据库进程返回结果监控等等)、华为语音系统硬件性能等等方面的监控;而且,针对人力资源部门采用了金碟EAS系统,扩展地监控了该系统的日志文件,也采取了主动预警机制,用户对监控的颗粒度比较满意,达到了他们预期的效果。
5、针对业务系统所依赖的存储系统采用了OpStor进行硬件性能的监控,当存储的双控制器/磁带机的驱动发生故障/切换,都能实时收到相应的告警信息,快速有效的进行处理。
6、通过NetFlow Analyzer能够细致了解到整个集团核心网络防火墙出入口的流量使用情况,运营支撑中心维护人员能及时收到相关的流量报表数据,为日后的网络规划提供了有力的数据依据。
7、NCM能够实时监测到网络设备配置的变化,当设备的配置变更发生变更时用户能第一时间收到配置变更内容及修改的人员,新设备上线时能够快速的下发相关的设备配置,提高了运营支撑中心维护人员的工作效率。
通过卓豪统一监控管理平台,珠江数码集团能够快速、有效地定位根源故障,让整个运维支撑中心维护人员工作效率得到有效的提升,服务质量显著提高,网络资源得到充分有效的利用及优化,设备的配置得到有效、规范化的管理,业务系统(BOSS系统、增值系统、人力资源系统等)持续可用性得到保障,数据库的维护工作亦能提供有效的数据依据,业务系统所依赖的存储系统亦得到保障,当出现故障时能够提前预警,达到故障的有效控制及解决。
IT负责人表示:“卓豪统一集中监控管理平台能使我们不用再分散的逐个去关注整个基础架构的运行状态,而是统一在一个页面上看到整个架构的运行情况,一切尽在掌握!”。