用户名: 密码:    

新加坡网利 陈海富
时间:2009-08-05 14:44:44
演讲主题
基于NetGain Enterprise Manager IT监控平台介绍

演讲嘉宾
新加坡网利(NetGain)系统有限公司产品专家 陈海富

演讲全文
各位大家下午好,最早的时候第一场听了中国电信的朋友们聊了一下IDC的发展,我原来也是IDC的技术主管,是从甲方出来的,我对IDC的管理工作比较有了解,我觉得在机房里值班的一些人技术工作量肯定很高,但是基本上做的就是打电话,我的机器死机了,帮我处理一下,工程师就跑过去,按一下重启或者把电源拔下来再插上去就可以了。我想通过我个人对IDC的了解,通过我们的平台,给大家一个更好的增值服务的产品。

我演讲的议程,产品介绍、需求分析、方案介绍、方案原型。

这个硬件叫做“企业架构管理器”,奥运会所有赛事赛场都用的我们这个平台,组委会也用的这个平台,还有残奥会都用的这个平台而且在基金行业也占到基本50%的市场份额。

围绕用户使用的环节,有网络设备、主机、操作系统、各种应用系统组成的业务平台,围绕这个金字塔,运维管理有这么几个方向,第一是IT监控与可用性保障,其实从字面上理解很好理解,就是监控这些层次是否可用,来保障它们可以使用。还有一个是IT配置管理,还有IT服务流程ITIL,ITIL最重要的是强调流程,ITIL流程比工具更重要。还有一个是IT业务管理,BSM是新出来的管理趋势,强调的是这个业务塔尖的可用性。网利的产品是集成了IT可用保障。

IDC/ISP运维需求分析,企业自身行业的发展,需要提高对自身服务质量的要求,提高用户的满意度。我从IDC出来大约有六七年的时间,我仅仅在国内见到一家可以给用户出服务报表的,看用户能不能满足,可以跟用户签协议的,这是唯一的一家,叫GGS,原来叫做高阳数据。现在这个行业迫切要求,很多用户都认为,我把设备放那儿托管了,流量是多少,不知道,有没有更好的,也不知道。没有人可以给自己出一个我给你提供的有效性是多少,现在还没有人出。

内部运维的需求,各位做技术的,不管是管网络的,还是管系统的运维人员,管得非常繁杂,不能说只管网络。内部运维可能还需要其它的管理范围。还有用户的需求,IDC托管用户,不仅需要了解他自己托管业务的性能、运营情况,还有更详细的,端口,你说百兆到底到没到,我使用了多少。还有我现在的流量是否够用,你告诉我我的流量不够了,你有什么凭据,是否需要拓展客户端,都是不知道的。我们做了一个很简单的IDC应用平台的运营方案,我们分为三个工期,第一期主要是实现内部运维人员对IDC自身设备的可用性管理。第二期是实现对内部用户托管服务器、网络设备、链路的性能管理。第三期是实现多个机房和多个用户,给他们集中展现的一面,让用户可以登录,实时看他们自己使用的资源效率是多少。

方案介绍,一期与二期很好理解,其实就是真正纯技术的东西,我能监控哪些东西,第一期内部运维人员,包括企业内部的人员,把能监控的东西全部监控了,比如链路、带宽利用率、延时、网络可用性、流量分析,还有主机情况,网络设备等等。前段时间我到上海,有一个数据中心,有一个用户机房托管了,他告诉我这个机房托管特别好,我的机器当掉了或者死机了,就给我打电话,问我你那边有一个机器可能死机了,需不需要我帮你重启一下,IDC的人员可以主动去联系用户,当然这样做代价也是很高的,那是三线机房,这是银监会指定的,只要做金融,必须把服务器托管到那个机房。

再看产品的监控能力,对网络设备的监测,服务器的监测,对各种应用系统的监测,对互联网的监测,甚至还可以自己去自定义。
产品实际监测能力,把方案串着功能来讲,这边是产品功能,这是对防火墙的监测,这是对交换机的监测,是思科交换机,CPU每个端口的流量,还有电压、温度、风扇,都可以监控,有的用户还可以放一些存储设备,是光纤交换机。这个是对我自己的笔记本监测,没有什么东西。这个是对AIX服务器、小型机,大家都是看CPU内存磁盘满不满。这是对Windows服务器,这是对阿帕奇的监测,这是对Oralce等等。

监控了这么多东西,全面监控起来以后,我可能找了一个很全的产品,像忠实的录像机一样,把所有的东西都录进去。一般情况下是企业里面的人用的最多,企业里所有人都可以看到,想看什么看什么,但是特别忙、特别乱,一会儿解决这个问题,一会儿解决那个问题,一会儿解决安全,一会儿解决数据库,工作起来特别没有头绪。那是为什么呢?咱们来分析一个IT业务流程,首先从用户角度来分析,用户使用的东西肯定是业务,不可能就用一个交换机、就用一个数据库,他使用的是业务,业务分布在不同的位置上,由不同的数据组成,业务平台肯定有不同的应用组成,移动网络办公,肯定有一个数据库,肯定有一个邮件平台,这些应用可能安装在不同的服务器上,咱们来看,传统的管理是这样来管理的。这有三个小人,有人专门去管网络设备,有人专门管应用平台,有人专门管系统,每一层都有人很专业、很深入的管起来,为什么最先发现业务不能用的是用户?网络不能上网了,不能收发邮件了,不能上查询系统了,为什么最先发现的是用户,而不是这三个管理人员,这是为什么?业务纵向的元素,网络、应用、系统都是有关系的。那三个管理人员都是横向看,都只看自己横向这一层,相当于只看到自己这层树,没有看到整体的森林状态。

举个例子,比如快下班的时候,你的核心交换机上,突然有三个口当掉了,管网络的人就会有一个问题,这三个口里边是不是有接收PC的,是不是有接收服务器的,我不知道,我只知道三个口当掉了,但是不影响网络办公。IT管理应该从业务纵向进行梳理,才能看出来。纵向管理的好处是什么呢?就是管理层,比如网络办公现在不能用了,领导最关心的是问题出在哪儿?是网络还是应用还是操作系统?通过纵向来看是可以看到的,横向看发现三个口一个当了,你可能查了网络查了半天,也查不出来。

有局限性,就需要管理的思维,有没有从用户的角度看业务的纵向价值。网利的产品就是跟用户一样,站在了业务这一层,可以纵向地往下看。而且这些元素是这样,企业无论大小,从业务之间它的关联关系是密不可分的。

模拟从“业务角度”监测的优势,上边是业务,IT的业务都是虚拟的,没有实际的东西。实际的东西是能看得见、摸得着的,比如CPU、交换机端口、WAP服务器、WAP服务器软件,这些都是实际的东西。首先有一个服务器CPU使用率很高,以前咱们传统的管理人员就认为,这个服务器CPU使用很高,通过网利的业务,我可以告诉你由于CPU使用很高,导致你网络交易受影响。或者换句话是说,网络交易受影响是因为CPU使用率很高造成的。从设备出的问题能看到能影响业务,也可以从业务出问题顺着捋到业务上去,这就是网利的必然概念。

大家看一下实际展示的页面,用户登录了以后,会看到很多业务在上面,但都是模拟的,OA正常,网上直销正常,网上交易都正常,但投资交易出问题,我点进去,投资交易里面数据库正常了,网站正常了,链路正常,中间件正常,操作系统正常,TOP也正常,系统涉及到的元素有主业、日志、响应时间,不如我告诉你,你原来设的值是这个进程一定要起10个,但是现在起了两个,从监测上往上推,推到上层业务。也可以从上层业务往下推,去梳理关联关系。

灵活定制业务视图。这幅图这边是杂乱无序的设备数据,端口、磁盘等等都在这儿,这些设备相对应的这个图是业务逻辑视图,我相信大家看完这个视图以后,都能把你所有业务都按照这个层次来梳理,画出来。每个业务能监控起来这些东西,按照这些层次来梳理。比如这是网络办公,这是一个根,里面分了三个不同的层次,每个层次包含三个不同的元素,从设备到业务,在网页上点来点去,不需要任何编程的方式,就在网页上操作。这边相当于在数据库里边讲就是一个源,这边是影射的关系,和业务这边怎么调整,只要源不动都没问题。

通过业务还是可以产生业务报表的,最直接、最有效的方式就能告诉你,现在有很多报表,CPU出问题了,或者哪儿出问题了,现在告诉你外部网络出问题,你点进去,直接告诉你哪个业务出问题。

我们可以给用户产生SLA报表,你给用户提供的带宽,提供的是百兆独享,到底联通性是多少,可以打出表格来给用户看。如果这个报表还不够,还有很多报表,可以随时定制。

我们主要做的是监控的东西,机房一二三,机房一可能是VIP客户,比如搜狐托管的机房占一半,就是VIP客户单独放一个设备给搜狐用。13层也有一个机房,也是给VIP用的,把机房里的设备集中给客户用,集中展现一个页面。有这么复杂的机房,都要定期去维护,你可能有N多个机房,可以每个机房里给每个用户部署一个产品,部署产品以后可能总的管理人员就会头疼,每个用户使用习惯是什么样的,不知道,你可以部署一套软件,叫做Enterprise Vista产品,会有一个统一展现。

方案设计的原型。第29届奥运会、残奥会赛事管理结构图是这样的,TOC是技术支持中心,SDC是备份中心。网利的设备在北京有34个场馆,是比赛用的,当然还有非比赛用的,每个场馆放一个设备,可以理解成一个VIP用户或者机房,当然也有远程的机房,比如上海、天津,部署EV平台,都可以进行汇总。

这张照片是我用手机拍的,是在水立方边上的数字大厦,在最高层,这一个屋子里面,我们如果晚上值班坐满了有300人。

2008年奥运会的IT运维架构和组织管理体系,我简单介绍一下。我是监控专家,我在TOC里值班,通过大屏幕,每天都是一个人值班,每天上班就是早八点晚八点,24小时。一个人会看到机房里所有的东西,一共是一万多台设备,我一个人看,比如我突然发现这里边ORA出问题了,我就点进去看,可能是数据库出问题了,我就立刻产生一个工单给数据库专家,告诉他ORA数据库出问题了,情况是怎么样的,数据库专家就去查数据库具体问题,解决这个故障。比如我可能发现它是网络设备出问题,我会报告给网络组,网络专家会用works去查思科的设备状态。这些网络工程师做的工作特别像我以前的工作,告诉他有一台服务器出问题了,你察看一下。他就会说,OK,没问题,告诉我那台服务器的编号。就会告诉他,26排25号机器。

网利在第29届奥运会的时候一些历史之最,一万多台设备,都是由网利平台做的,10多个技术专家,都是由我们来进行支持。最深入的IT监测,第一次奥运能做到把网络设备、防火墙、服务器、打印机等各类IT系统和设备整合在一起,是很不容易的,比如打印机缺不缺纸、缺不缺墨,都可以监测到。第一次把需要的场馆设备都集中在一块,从下边机房出问题,到TOC知道,最快演练速度是14秒,最慢是32秒就能知道这个信息。

我的产品演讲完了,希望我的产品能给各位一个增值或者管理的平台,能够更好的通过技术手段为IDC提供更好的服务,谢谢各位。
最新资讯
·IDC中国 陈晖
·艾默生 贾津军
·Riverbed 丁伟
·瞻博网络 颜维伦
·新加坡网利 陈海富
·Avocent 季晓文
·美国康普 吴健
·F5 吴静涛
关于我们|联系方式|编辑特色|市场活动|增值服务|投稿须知|订阅须知
Copyright 2002-08 All Rights Reserved 《通讯世界》
E-mail: editor@tele.com.cn · 电话:010-58882983
京ICP备12027778号-5 ·

京公网安备 11010802021569号