单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,单击此处编辑母版标题样式,,MOT GSM,无线设备培训,——BSC,告警和告警处理,——·,覃道满,1,学习目标,掌握告警格式与组成,2,3,熟悉告警处理流程,学习内容,告警格式和组成,,,告警处理流程,,,BSC,非正常重启分析,,,简述,机房运行维护人员经常会碰到告警,有些告警是操作维护过程中自然产生的,有些告警是瞬时性的,不会影响系统正常运行,但大多数告警是会影响系统性能的,有的甚至会导致,BSS,复位,对移动通信系统造成严重影响因此对于运维人员来说,了解告警系统,掌握一定的告警分析和处理技能,显得非常重要告警系统是为了故障定位,系统性能分析及方便维护而设置的告警信息可以在,OMCR,的告警窗口上显示,也可以在本地维护终端(,LMT,)上显示BSS,产生的告警信息,以字符的形式发往,OMCR,告警的种类和格式,告警可以分为硬件告警和软件告警两种:,,硬件告警是由于,BSS,内的硬件故障所引起的告警软件告警是由,GPROC,检测到软件进程运行出错所引起的告警,,只有,GPROC,设备(,BSP,,,CSFP,,,DHP,,,BTP,,,pool GPROC,)才会产生软件告警信息。
告警举例,#0,,–,,NEW,,–,,,*,NONE,*.,,,,,CommuncationFailureEvent-,CAGE,- BSS0,1,(BSS0,1,:SITE-0:): 0 CAGE 1 - 30/03/1999 14:23:56.,,,[18],Expansion KSWX Slot 22 Communication Failure - FMIC - Major - -/-.,,,(BSS01:SITE-0:):0 SITE Impacted to Major.,,,,,,告警解析,#0:告警ID,,NEW:告警状态,,NONE:正在处理此告警的人员,,CommuncationFailureEvent:告警的类型,,CAGE:告警级,,BSS01(BSS01:SITE-0:): 0 CAGE 1:发生告警的位置,,30/03/1999 14:23:56:告警发生时间,,[18]:告警编号,,Expansion KSWX Slot 22 (见框架配置表)Communication Failure:告警描述,,FMIC:告警的去除类型,,Major:告警严重等级(主要告警),,(BSS01:SITE-0:): 0 SITE Impacted to Major:告警附加信息,附,:BSC,机框配置图,告警编号,告警编号对于每种设备都有唯一的一个十进制数表示。
每种设备的告警编号从0到254见附录)对于不同的设备告警编号可能重复,但与设备相关的编号是唯一的有些情况下同样的告警编号表示类似的告警 例如242号告警表示设备退出效劳(MMS\MTL\RSL)告警消除类型,告警的去除类型可分为三类:,,Intermittent,,Fault Management Initiated Clear(FMIC),,Operator Initiated Clear(OIC),,Intermittent表示告警是偶发性的,对系统没有危害此告警发生后在OMCR会自动消除当此类告警频繁产生时,会增加OML链路的负荷我们可以使用disp_throttle命令来查看告警门限设置,还可用chg_throttle命令调节其门限值FMIC告警的去除由系统的错误管理进程(Fault Managerment Process)自动进行FM进程管理一张现有告警的列表,只有当告警产生的原因消失后FM才会产生‘clear’ 消息将此告警从告警列表中删除OIC需要由操作人员手动将告警去除FM进程检测到告警产生并判断为OIC类型时,将此告警参加现有告警列表中此后FM不再进行任何处理当操作人员将告警产生的原因解决后,必须将此告警去除。
去除告警步骤,在OMCR和BSC上均能够去除告警OMCR上去除告警按以下步骤进行:,,翻开告警窗口,单击鼠标左键选中要去除的告警项,,单击鼠标右键弹出快捷菜单,,选择快捷菜单的“Handle〞,,选择快捷菜单的“Clear〞,,确认告警已被去除,,在BSS上去除告警,先使用disp_act_alarm命令查看有哪些OIC告警然后使用del_act_alarm命令将告警去除去除命令如下:,,del_act_alarm (只对OIC告警),告警的类型,,OMCR,将告警分成六种不同的类型,可以在,OMCR,的告警说明中找到,"FailureEvents",字段,其为不同类型告警的名称附,:,告警类型表,类型,,含义,,举例,,Communication,,数据从一点传到另一点时发生错误而产生的告警,,一般当信令丢失或呼叫建立出错时发生此种告警,1,、,mms syn loss,2,、,frame slip daily,3,、,bit error,4,、,dri-ctu activelinkcommunication failure(,critical,),,Quality of Service,,系统的服务质量下降时产生此告警,,一般当消息响应超时或带宽减少时会发生此种告警:多见于时钟失锁,gclk_mcuf phase lock failure,(,major,),,Processing,,当软件或进程出现错误时产生此告警,,一般当进程数据被破坏或系统内存溢出时产生此种告警,dri-CTU channelcoder internal messageerror,—,intermittent,(,warning,),,Equipment,,当硬件出错时产生此告警。
一般当出现配置错误,传输、电源等问题时产生此种告警,dri standby link communication failure(,minor,),,Environment,,当设备所处的环境不利于正常工作时产生告警,,一般当出现烟雾,火光被检测到时产生此种告警,,Link,,当,OMCR,与,BSS,间的,X.25,链路出现问题时产生此告警,,告警的等级,影响,,行动,,举例,,严重,,(Critical),,已经影响了系统的服务,,应该立即采取措施,,当系统的某一功能出现此种告警而退出服务,应立即将其恢复重大,,(Major),,已经影响了系统的服务,,应该马上采取措施,,系统的服务容量降低,此时应采取措施恢复容量较轻,,(Minor),,此错误不会对系统的服务造成影响,,应采取措施减少更多的此类告警产生,,当此种告警数量不断增加时,系统的容量可能受到影响警告,,(Waring),,潜在产生影响系统服务的告警的可能,,如果必要应该进行必要的分析,采取措施避免产生更严重的告警,,清除,,(Clear),,告警已经被清除,,无,,待定,,(Investigate),,表明此错误的等级无法确定,需要人工进一步分析,,进一步查找原因,,,,发现告警,第一种方法:OMCR桌面图形界面GUI上的ALARM按钮,,在OMCR桌面图形界面GUI上双击告警按钮,翻开告警窗口,可以看到所有网元(NE)的告警信息;,,第二种方法:通过GUI上的EVENT MANEGMENT,,点击GUI上的EVENT MAMT按钮,翻开Display Subscription List窗口,选择窗口中告警中的一项,选择open按钮就翻开告警窗口;,,第三种方法:翻开MAP图,然后选中对应的单元节点,,从NETWORK MAP上查看告警,单击GUI上的NETWORK MAP按钮,翻开MAP LIST窗口,选定其中的一个网元,双击鼠标左键翻开MAP窗口,在MAP图上用鼠标左键点击要查看的网络单元节点,选中后接点会变为紫色,单击鼠标右键在快捷菜单内选择ALARM项,此时会出现告警窗口显示此节点单元的所有告警。
用disp_act_alarm 命令行查看告警.,告警处理优先级别,我们可以根据告警的严重级别,以及出现告警的网元在系统中的重要性,对不同的告警情况进行相应的处理在此我们提供一般原则下的优先级别对于基站来说从,RXCDR,到,BSC,,再到,BTS,;信令链路按照,MTL,、,RSL,、,XBL,的次序;告警严重级别由高到低分别是,Critical,、,Major,、,Minor,、,Warning,、,Investigate,、,Clear,在相同的告警级别中,,Critical,告警按照以下顺序,All RXCDR-All MTL -All BSC-All RSL-All BTS-All X.25 link-All other Critical alarms,Major,告警按照以下顺序,All RXCDR-All BSC-All BTS-All other Major alarms,其它告警按照,Minor,、,Warning,、,Investigate,、,Clear alarms,的顺序进行处理附,:,告警优先级别图,告警处理优先级别,:,The sites,,,Remote Transcoder (RXCDR),,,Base Station Controller (BSC),,,Base Transceiver Station (BTS),,The links,,,Message Transfer part Link (MTL),,,Radio Signalling Link (RSL),,,X.25 link,,,,Critical,告警按照以下顺序:,,,All RXCDR - Critical alarms,,,All MTL - Critical alarms,,,All BSC - Critical alarms,,,All RSL - Critical alarms,,,All BTS - Critical alarms,,,All X.25 link - Critical alarms,,,All other Critical alarms,,设备之间的附属关系(parent-child),当某个设备或链路处于,OOS,等非正常状态时,不仅与起本身相关,而且与其上一级(,parent,)设备有关,对,parent,设备进行进行必要的处理是解决问题的重要手段。
如果某个设备处于,OOS,等状态下,此设备下一级(,child,)设备将也不能正常工作Device,,1,st,parent dev,,2,nd,parent dev,,3,rd,parent dev,,4,th,parent dev,,RSL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,MTL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,OML,,MMS,,MSI,,TCU,,DRI,,CAB,,SITE BSS,,XBL,,MMS,,MSI,,CAGE,,CAB SITE BSS,,告警处理的流程,查看告警,,,分清告警的级别,,,明确与告警有关的设备,,,根据告警手册或经验对告警进行处理,,,解决问题,消除告警,,常见告警及其处理方法,常见告警及其处理方法,.doc,BSC,非正常重启分析,BSC,在网络中的位置和作用,,重启分类,,原因分析,,实例分析,,BSC,日常 维护应注意的事项,,BSC,稳定运行的条件,BSC,在网络中的位置和作用,在GSM无线通信系统中,BSC作为基站控制器,是BSS子系统的关键节点,一套BSC管理几十个基站和GPRS网络关键节点PCU。
BSC同时作为GSM语音业务和GPRS数据业务的无线关键设备,其作用可归纳为:无线管理、电路交换和接续以及协议转换BSC重启,即BSC 退出效劳的过程,将中断BSS子系统目前正在进行的工作,受该BSC所控制的语音业务和数据业务将不能提供效劳,影响相当严重附,:BSC,在网络中的位置图,BSC,在网络中的位置,:,MSC,XCDR,BSC,BTS2,BTS1,PCU,SGSN,G,,P,,R,,S,,,G,,S,,M,,,,重启原因分类,系统因故障自动重启,,人为操作导致系统重启,重启原因分析,机房环境和动力BSC,硬件故障各种,LINK,的故障总线的,Failured,BSC,软件故障改变数据库和参数设置机房环境和动力,主要是频繁出现高温告警,或灰尘比较大,或电源供给中断或不稳定造成的高温或灰尘比较大的时候,对那些运行时间已比较长的设备威胁比较大,当某个芯片因灰尘积累得比较多而又散热不充分时,芯片有可能因过热被烧毁,芯片所在的插板将会退出效劳,当系统容错机制失效时,为了排除故障,系统将不可防止地自动重启,若系统不能自己排除故障,在人为干预之前,系统将会一直处于重启状态BSC,硬件故障,这里说的硬件主要是插在BSC机框中的各种插板,每个插板的功能不同,出现故障时对整个BSC的影响也是不同的。
从机框的背板到插槽上的每一块插板的故障都有可能导致系统退出效劳,特别是系统不能识别故障板件时,重启将不可防止地发生,其中GPROC(处理器板)、GCLK(时钟)、LANx和KSWx (时隙交换扩展板),因数量多或作用关键,出现故障时容易引起BSC的重启这其中又以时钟板最为重要各种,LINK,的故障,与BSC相连的LINK有MTL、RSL、OML、XBL、GSL对BSC影响最大的是MTL和GSL两种链路,有可能导致BSC自动重启或BSC中有死进程存在,有死进程时系统运行将非常缓慢,命令无法执行,需要人为重启BSC来去除总线的,Failured (1),PBUS:PBUS即Processor Bus ,它是MCAP总线在软件上的一种表示,负责GPROC与其他大的插板(XCDR、GCLK、KSW、DRI)之间的通信PBUS Device Failured的原因可能是:,,①LANx 板Faulty;,,③某块板件故障②可能是FTP(故障传输局部)和FCP(故障收集局部)之间的错误引起的第三种情况属于软件故障,需要人为重启BSC来重启这两个进程总线的,Failured (2),SBUS:SBUS即Serial Bus ,它上面的通信由GPROC控制,主要负责GPROC与小插板板(如LANx、KSWx、CLKx)之间的通信。
每个机框的SBUS也是一主一备的,但它们被分配不同的任务,Standby 不享有Active SBUS的功能当SBUS failured后,BSC有可能会重启,局部故障不会引起重启重启结束后,如果SBUS仍然是不可用状态,那么就必须去检查具体原因了SBUS有故障时,必须考虑所有被主GPROC控制的SBUS上的通信导致SBUS Failured的原因有以下几种可能:,,①LANx插板没有插到位,与背板的连接不正确,或光纤没有连接好或连接了错误的光纤②LANx插板Failured③GPROC板Failured,导致SBUS上的通信不正常④BTC板不能给背板供电总线的,Failured (3),TBUS:TBUS即TDM BUS 它由KSW控制,每对KSW为系统提供1024个交换时隙,分配给其它大的插板如GPROC、MSI、XCDR、KSW使用,时隙可扩展和扩容在TDM高速总线故障的情况下,系统的主用TBUS将会退出效劳,系统将要求TDM highway做倒换,进而将会使所有机框里的的TBUS一起做倒换,如果此时备用的TBUS不可用,倒换将不能成功,机框将会退出效劳,系统将会要求整个BSC重启。
引起TBUS Failured的原因可能如下:,,①连接本地与远端KSWx的光纤有问题,或者断了②KSWx插板Failured③KSW插板故障或不可用总线的,Failured (4),CBUS,:,CBUS,即,Clock Distribution Bus,,通过此总线系统将时钟信号传送到机框背板给各种大的插板,GPROC,、,KSW,、,MSI,、,XCDR,等插板提供时钟,,CBUS,在整个系统一主一备的当主用的,CBUS,有故障时,系统会自动倒换到备用的,CBUS,,当然备用的,CBUS,在此时是必须可用的当备用的,CBUS,不可用而系统倒换时,,BSC,将重启引起,CBUS Disabled,的原因可能如下:,,①GCLK,板硬件故障②,扩展时钟信号的光纤有问题③,扩展时钟信号的,KSWx,插板和,CLKx,插板故障BSC,软件故障,GPROC的内存问题我们知道,GPROC在BSC中处于相当重要的位置是因为它担任了控制处理功能,GPROC的CUP也有一定的工作极限,当用作BSP的GPROC的CPU使用率到达100%,出现BSP[239] process safe test audit failure(检测不到BSP板)告警,此时软件故障可以称为进程吊死。
遇到这种告警时,需要在BSC现场关掉OML,即将Slot16、Slot14板开关下置为 “disable〞,重启BSC为了节省故障恢复时间,可进入第3层,等待出现[waiting for OMC-R]的提示时输入如下命令:Msg_send 80 0 0 0 1978h---跳过从OMC-R下载数据以加快启动过程导致BSC 重启的原因是因为BSC的SSM与BTS的CRM间通信量太大,使得产生的SM SWFMs过多所致最直接的原因是基站的业务量太大,TCH拥塞所致通过调整cp_messages.c SWFMs的量,可以解决此问题为了减少此类故障的发生,建议用处理能力更强大的GPROC3做BSP,减少重启的可能,当BSP负荷很高时,可以考虑设置单独的OMF,把OML别离出去,降低BSP的负荷在系统话务忙时防止执行大批量的命令,也可减少BSP重启的时机降低单个GPROC的负荷,防止某个GPROC因负荷太大时自动重启后,负荷被其它GPROC分担后出现多米诺骨牌效应,最终导致整个BSC重启的悲剧的发生有时侯内存并没有问题而是当使用内存时GPROC被locked了这时可有三种方法来处理:,,①将此可能故障的GPROC(BSP)与其它的GPROC交换,即使此GPROC再次重启,也不会使BSC重启。
②换一块好的GPROC③UNLOCK GPROC,改变数据库和参数设置,有时数据库某些参数做了改动后也需要,BSC,重启,才能正常工作或发生作用,特别是一些影响基站正常工作的参数,平时不要随意改动另外还有可能因为本身新版本软件的缺陷也会偶尔出现问题,需要使,BSC,重启事例分析,(1),BSC的3个GPROCs(0116, 0117, 0118)在不同时间自动reset,造成BSC reset解决:从收集的数据发现MTL不稳定,时好时坏,有告警产生CA向GPROC发送fast_reset,将GPROC reset因为GPROC控制的MTL和RSL负荷过大,使得MTL时好时坏当一条 MTL断了,造成其超负荷,就会使得其他MTL退出效劳这时可检查此MTL的统计数据,或检查PGROC的CPU的使用率因为处理能力的限制使得他们拒绝更多的消息进入建议用户重新配置BSC的容量; 如某MSC下只有某BSC范围电话难打,可考虑reset_site bsc; 如只有局部RSL负荷过大,造成电话难大打,可reassign lcf 事例分析,(2),Disable 第二个GPROC后BSC reboot,,解决:分析发现:发现GCLK退出效劳, 使得BSC reset。
因此使得BSC reset的原因不是lock GPROC 而是GCLK的故障产生的,及时处理GCLK的问题,以防再次Reset BSCBSC日常维护的重点事项 (1),更换MSI板时,先用命令查看MSI板的工作状态,如果是未闭锁状态,则应该先将插板闭锁,替换后再解锁,防止在未闭锁状态下直接操作GPROC板出现故障或告警需要拔出时,应该先重启此GPROC,确认GPROC不能恢复正常,再将GPROC的面板上的按键拨到Disable,再操作GCLK 板出现问题且需更换时,先倒换到备用 GCLK,将面板上的按键拨到Disable后再操作安装扳子要到位,要确保插板与背板能连接正确,这样插板才能正常工作,也不会影响与其他插板之间的通信BSC日常维护的重点事项 (2),要注意光纤的清洁,特别是与半尺寸板连接的光纤,如果光纤不干净也会导致插板Disabled,成为系统隐患机柜和各种插板应定期按照标准进行清洗和除尘一些GCLK、LANx、KSW等设备的告警和某些死进程可能会使GPROC退出效劳,特别注意GPROC 245号告警,此告警表示一个GPROC或BTP退出效劳如果主用的BSP出现此告警时,BSC已经重启了。
如果一般的GPROC出现此告警,该板会重启,并会影响相应的信令链路,导致有关BTS退出效劳当在出现GPROC 245号告警前出现大量相关设备的告警时应该注意及时排除,以免引起GPROC重启同时注意CPU工作时的负荷,超过60%或负荷值异常时,应该排查原因,适当地将工作量移到其他的GPROC上或换用处理能力更强的板件BSC日常维护的重点事项 (3),注意日常的告警信息,经常用disp_act_alarm和state 0 oos all命令查看系统,发现有告警或不在效劳状态的设备应该及时进行处理要及时收集故障记录数据,因为系统的存储有一定的限度,到一定的时间或者一定的数量它就会被覆盖掉板件插错槽位会引起BSC不停的重启小插板的螺丝一定要拧到位,以免留下隐患BSC的每个机框至少要有2块GPROC板和2块MSI板处于正常状态,以防止当只有一块GPROC和一块MSI板时,如果其中的GPROC或MSI板有故障都会引起整个BSC重启在更换GPROC和MSI板时要特别注意:保持最少有一块GPROC和MSI是B-U状态如果连续更换GPROC(在其它GPROC还未恢复正常B-U状态时)板则整个BSC会重启。
BSC日常维护的重点事项 (4),更换BTC(总线终结)时,只能一块一块地操作,操作之前,先将一个可用的BTC板替换与将更换的BTC板在同一个机框同一侧的KSW板,在状态正常后再开始之后的更换操作,并在所有的更换操作完成后,插回KSW板,恢复原状通过集中性预防性维护,可以及时发现系统隐患并加以排除,最大限度地提高现行系统设备的利用率,增强系统设备的可靠性,从而减轻平时日常维护的压力此类维护有:定期进行主备用总线系统的倒换测试,以检验备用系统的可靠性;定期在适宜的时间里主动重启设备,去除可能存在的死进程;周期性地对信令负荷和GPROC板的CPU负荷进行统计,对存在异常的GPROC板及时分析原因并采取适当措施;定期对BSC机房进行巡检,检查温度、湿度和电源系统,进行告警验证,使机房环境满足稳定运行的需要加强专业技能的培训和实践,提高维护人员的维护技能,尽量减少人为的操作失误BSC,稳定运行的条件,一是稳定的符合设备运行标准的机房环境,包括适宜的温度和湿度,巩固结实的房屋架构,机房位置没有水患和具有完善的报警和消防系统二是平安稳定的动力供给包括满足要求的设备备品备件,多路供电技术和停电后快速的发电措施。
三是设备包括所有插板和连接光纤没有隐患或可能影响设备运行的告警存在,同时需要24小时的告警监控、齐全的备品和备件和及时的处理措施四是完善的操作维护和施工标准,完备的应急处理流程和措施五是建立一支具有一定维护技能的稳定的维护队伍也相当重要BSC,非正常重启案例,故障处理报告实录,.doc,习题,分析BSC产生X.25中断告警的原因——,中国联通有限公司广州分公司,·,覃道满编制,Thank You !,44,。