拥塞问题分析流程一、基本知识1、A 接口概述A接口是BSC和MSC之间的接口,A接口拥塞是所有拥塞问题中最严重的,涉及 A接口连接的BSC控制的所有基站,表现为:(1) 用户普遍无法打;(2) 所有基站的无线信令信道同时发生拥塞,通过BTS维护台查看信道状态可看 到SDCCH全部占满且短时间内无缓解迹象,同时又可看到业务信道比较空闲;(3) BSC的CPU占用率维持在较高的水平,在极短的时间内可达到80%以上甚至更 高;(4) 全部或大部分A接口 7号信令链路处于断开链路状态对A接口 7号信令闪断或长时间中断、SDCCH动态调整和信道过载、CPU占用率 过高等现象,需要冷静地根据本文指导逐步解决问题只要处理方法得当,系统 都可以顺利恢复2、无线信道概述 这里的无线信道拥塞指单纯的无线信道资源,即个别基站,非大面积的按信道 类型分主要有公用信道的PCH拥塞、AGCH拥塞和专用信道的SDCCH拥塞和TCH 拥塞一般来说,只要位置区划分合理,数据配置中寻呼信道和AGCH比例分配 合理,公用信道拥塞的情况很少发生,因此本文主要介绍专用信道的拥塞问题处 理下面说的信道拥塞都指专用信道拥塞检查是否发生了信道拥塞主要看话务统计中的信道拥塞率,如果某个小区的 SDCCH或TCH拥塞率较其它小区明显偏高,则可认为发生了拥塞问题。
正常情况 下的忙时拥塞率不应超过 5%造成信道拥塞的原因是非常多的,主要有:(1) 位置区划分不合理;(2) 地面资源不可用导致的拥塞;(3) 确实话务量大,需要扩容;(4) 突发业务量增大,如火车路过的偏僻站点,节日聚会场合,短信息集中发送 时间等;(5) 有TRX故障;(6) 有干扰造成指配信道失败二、A接口拥塞故障定位1、 确认A接口信令性能的相关话统任务是否在工作相关的话务统计任务有3个:“MTP链路性能测量”、“SCCP协议性能测量”、 “BSC整体性能测量”BSC整体性能测量”话务统计任务的作用是观察“MSC发来寻呼请求次数”、 “寻呼请求次数”、“PCH(Paging Channel)过载次数”等与寻呼量有关的指 标,这是观察A接口信令流量的一个必要补充当事故发生时,应登记一个15 分钟周期的“BSC整体性能测量”,只包含与寻呼有关的几个指标说明:BSC在任何情况下,都必须登记“MTP链路性能测量”、“SCCP协议性能测量” 这两个话务统计任务登记其中所有指标,任务周期最多为15分钟MTP链 路性能测量”的任务对象为所有模块的所有7号链路建议正常运行的情况下也 登记15分钟周期的“BSC整体性能测量”,只包含与寻呼有关的几个指标,以 便问题发生时进行分析。
2、 通过话统判断A接口信令负荷是否过载在很多案例中,A接口信令链路下行负荷过载都是造成链路闪断或长时间中断的 主要原因观察BSC的“MTP链路性能测量”的话务统计任务,如果某条A接口信令链路已 经长时间中断,则可观察其中断前的统计结果如果某些或所有7号信令链路的“信令链路接收占用百分比”超过40%,说明MSC 向BSC下发的消息量过大(一般是寻呼消息下发过多),造成了 A接口 7号信令 链路下行过载MTP链路性能测量”话务统计结果反映的是一个话务统计任务周期内的MTP链 路平均占用情况,如果是多次突发性的链路拥塞,不一定能使平均结果超标这 时如果发现“信令链路接受占用百分比”比平时高出2〜3倍或更多,并且从“BSC整体性能测量”中可看到有异常多的PCH过载,则也可认为A接口 7号信 令链路下行负荷异常如果某些或所有7号信令链路的“信令链路发送占用百分比”超过40%,说明BSC 向MSC上发的消息量过大,造成了 A接口 7号信令链路上行过载不过这种情况 很难发生从MTP链路性能测量的其它指标中也可看到信令链路由于拥塞而发生了中断的 次数,各项指标综合分析,也可知是否发生了拥塞、以及哪个方向发生了拥塞。
说明:40%的链路负荷能力是一个危险的警戒线在日常维护工作中,如果发现链路负 荷超标,应积极采取措施缓解系统正常运行中,不可能发生上行超标而下行不 超标的情况;如果上下行均超标,应考虑增加链路数量;如果只有下行超标,则 应通知MSC维护人员采取措施3、 A接口信令链路上行过载时的措施如果信令链路下行未发生过载,则上行也不可能过载;即使发生了下行过载,同 时发生上行过载的可能性也很小一旦发生了上行过载,可暂时关闭上行过载的链路所在模块的一些基站,待观察 到“信令链路发送占用百分比”已经低于40%后,才可打开基站4、 A接口信令链路下行过载时的措施此类案例较多信令链路下行过载的直接原因基本上都是寻呼量过大MSC向BSC下发超量寻呼的可能原因是MSC/VLR工作异常、或者HLR工作异常、 或者SMC (Service Management Center)突发性地向全网发送了超量的点对点 短消息,对此BSS维护人员应立即和NSS (Network SubSystem)维护人员取得 联系,从NSS侧找到问题的根源,并采取有效措施当NSS的异常得到恢复、A 接口信令链路也恢复后,BSS经过一段时间之后也会逐渐自动恢复正常。
如果BSS所有基站的传输发生过大面积的中断,或由于其他原因使得BSS的业务 中断过较长一段时间,BSS系统恢复后的十多分钟内,A接口也会有大量的消息 下发造成A接口信令链路下行拥塞这时也不必采取任何行动,系统会自动恢复可以在A接口信令链路恢复正常后,针对单个小区打开BSC维护台的Abis接口 信令跟踪,或使用信令分析仪跟踪某些小区的Abis信令,正常情况下能够看到 一些完整的位置更新或呼叫流程,这就说明基站的信令信道拥塞正在解除;如果 长时间都未看到任何完整的位置更新或呼叫流程,则说明基站工作异常,需要对 基站进行复位如果希望某些重要基站能加速解除拥塞,在某些特定的条件下有相应的办法:当 这些重要基站有相邻的其他小区,并且这些相邻小区的拥塞已经解除,可以对这 些重要基站进行复位操作,在复位的过程中使等待位置更新或呼叫的移动台能通 过相邻小区完成所需的流程如果不能满足这些条件,则不可复位基站,复位基 站只会延缓拥塞的解除可以通过拔掉部分基站的E1来加速恢复5、信令链路未过载的措施如果发生此类情况,主要观察“ SCCP协议性能测量”的话务统计结果,当发现:“发出的CR消息数”〉“收到的CC消息数” + “收到的CREF消息数”并且差别明显,同时有大量的“SCCP远端无响应”告警,则可认为MSC的信令 处理发生了问题,应及时通知MSC维护人员处理。
否则,先观察15分钟,同时分析BSC的告警,并观察是否有单板故障,根据具 体情况决定所采取的措施三、案例1、同频干扰引起SDCCH拥塞[现象描述]某站点SDCCH经常发生突发拥塞,异常时SDCCH的信道请求次数明显增多[原因分析](1) 现场跟踪信令发现:异常时,在 300ms 内上报了 60多条信道请求,且信道请 求内容完全一样除前面几条分配信道失败外,余下的请求都被拒绝,导致拥塞2) 检查数据配置,发现在离拥塞A小区10km处有一 B小区的TCH频点和该小区 的主B频点以及BSIC都一样3) 分析可能是B小区上的移动台做切换接入,该移动台位于A小区和B小区之 间,切入B小区比较困难,而切换接入信号被A小区解为随机接入,从而为每个 信道请求分配信道,导致SDCCH拥塞4) 让现场更改B小区的BSIC,错开A小区的BSIC,拥塞问题消失[规避措施]TCH的频点要错开,原则上不能使用BCCH频点集的频点否则除了会造成以上 问题外,BCCH信号也会对TCH进行干扰2、TRX故障引起TCH拥塞[现象描述]某基站的配置为S (6/4/2),从某天开始,该基站话务统计结果显示,1小区(6载频)的 TCH溢出非常严重,比如,在某天的忙时(10: 00〜11: 00): TCH占用总次数为176,而 其TCH溢出次数竟达到36次,拥塞率达到20%。
连续观察每天该1小区24小时段的话务 统计结果,发现该1小区的TCH拥塞率非常之高,一般都处在15%〜60%之间,几乎每个 小时都发生拥塞率过高发生拥塞率过高时,该小区的话务量都非常低,一般忙时只有 0.8Erl 左右,且同时,TCH占用遇全忙的次数为0观察该1小区所有基带的信道状态,全部为“Idle” ;获取该小区的基带和RC 属性,非常正常,在维护台上看不出异常之处[处理过程](1) 在基站远端维护中查看BT的信道状态,初步判断出该1小区的BT4、BT5有 TCH 占用失败的表象⑵闭塞BT4和BT5,同时闭塞RC4和RC53) 登记一个只针对该小区的话务统计任务,含有以下一些指标:TCH占用失败 次数、TCH占用请求次数、TCH拥塞率、TCH占用遇全忙次数等,话务统计统计 周期为 30 分钟4) 第二天晚上去观察前一天晚上的话务统计结果,发现全天的所有时段已没有 TCH拥塞,表明确实是RC4、RC5两个载频有问题5) 解闭 BT4、BT5、RC4、RC56) 复位RC4 (TRX4)、RC5 (TRX5),第二天查看3中所登记的话务统计结果, 还有拥塞7) 去该基站现场插拔TRX4、TRX5,进行锁频拨打测试(在TRX4、TRX5 上), 仍有TCH占用失败;对TRX4、TRX5互换槽位,进行锁频拨打测试(在TRX4、TRX5 上),仍有 TCH 占用失败。
8) 更换TRX4、TRX5,进行锁频拨打测试(在TRX4、TRX5 上),没有TCH占用 失败现象;(9) 第二天查看3中所登记的话务统计结果,已没有TCH拥塞现象,问题解决3、传输不稳引起SDCCH拥塞[现象描述]新开BTS30,开通后SDCCH —直基本上处于全忙状态(A), TCH为⑴或(A)状态, 能拨通后通话正常观察话务统计SDCCH分配失败次数在一千次左右(忙时)自环BIE 端口指示灯有时会闪 LAPD 链路故障告警和恢复告警(在一秒之内),告警频度在十分钟 左右出一次[原因分析]造成SDCCH拥塞的常见原因如下:(1) 数据配置错误;(2) SDCCH 数量不足;(3) 射频问题;(4) 无 TCH 或严重拥塞;(5) 传输质量问题[处理过程](1) 进行数据检查没有发现问题,同时在夜间与其他同型基站BIE端口对换,其 他基站工作正常,该站现象依旧,可以排除数据问题和BSC侧硬件问题;(2) 由于基站距BSC较远,首先进行与传输有关的话务统计登记察看结果(传输 相关)没有异常,但 SDCCH 话务统计依然异常;(3) 更换基站TMU、TRX现象依旧;(4) 协调客户对传输测试(同时有另外一个基站开通现象相同),发现传输有误 码,后通过逐段测试,定位在到基站传输所走一段的接入网中有一 2MHz 传输单 板有问题,更换该单板问题解决(两基站在同一块单板)。
4、大量突发位置更新引起SDCCH拥塞[现象描述]某本地网无线接通率偏低,从话务统计上分析其主要原因为少数几个站SDCCH拥塞处理过程]⑴从话务统计上看,出现拥塞的小区忙时有300〜400次SDCCH占用,均为S (1/1/1)基站,每个小区均配置8个SDCCH/8信道通常可以满足300〜400 次SDCCH占用,但每个小区忙时均出现几十次SDCCH拥塞2) 登记相应的话务统计,发现SDCCH占用中,绝大部分为位置更新造成结合 基站所处位置,发现上述拥塞基站大部分处在铁路线两个位置区交界处,由此联 想到可能是突发的位置更新导致SDCCH拥塞3) 为了证实上述推测,特登记五分钟话务统计,发现位置更新大部分集中在某 五分钟之内今查询列车时刻表,该时段有四到五列客车经过列车经过时,大 量的突发位置更新集中在很短的时间内进行,导致拥塞4) 增加SDCCH配置[建议与总结](1) 对于铁道线上,位置区交界处的基站,在SDCCH配置上要留适当余量2) 对于S (1/1/1)这种配置较小的基站,打开SDCCH动态分配5、CIC号配置错误引起拥塞[现象描述]某局TCH拥塞率居高不下,TCH拥塞率(不包括切换)达4%。
[处理过程](1) 该网不久前曾经进行版本升级与扩容,升级之前整网TCH拥塞率较低2) 考虑指标恶化可能与数据修改有关,在大量的数据中要找出问题所在必须有 的放矢分析话务统计数据,取出当天忙时话务统计进行分析,发现拥塞率高的 小区基本集中在BSC1的1模块,该模块控制市区大部分基站1模块各小区拥 塞率指标的恶化降低了整网指标因此将原因大致定位到1模块因此着重分析 1 模块3) TCH拥塞率(不包括切换)=TCH占用失败次数(不包括切换)/TCH占用请 求次数(不包括切换),因此在话务统计数据中各小区TCH占用失败次数较多 进一步分析TCH占用失败次数多的原因时,TCH占用失败次数(地面资源不可用) 占了绝大部分,说明地面资源不可用是造成1模块TCH拥塞率高的主要原因4) 地面资源不可用的主要原因可能在Abis或A接口电路上,需要进行检查5) 因为1模块下很多小区都有此现象,Abis接口同时出现故障的可能很小,需 集中在A接口上的相应硬件或数据上查找问题6) 首先检查 1 模块 A 接口硬件,发现无故障7) 再检查 1 模块中继部分的数据配置,打开中继电路表,首先排序,再检查8) 发现1模块0群前32个时隙CIC编号为65535,而在中继群表中1模块0群 对应电路为BSC至MSC的电路,显然CIC号配错。
将其改为0〜31后再动态设定9) 第二天观察话务统计,发现 1 模块中各小区拥塞率下降,原来各小区 TCH 占 用失败次数(不包括切换)次数大幅下降,整网拥塞率(不包括切换)由 4%降 为约 2%6、LAC号配置错误引起SDCCH拥塞[现象描述]某基站的2小区的SDCCH拥塞率高达4.91%,该基站为S (1/1/1)的配置,而每小区忙时 TCH 话务量不超过 3Erl[处理过程]⑴查看TCH、SDCCH性能测量指标,发现TCH的话务量不大,每小区忙时话务量 不超过3Erl,但SDCCH的占用请求次数非常高,忙时高达3032次,话务量达到 1.86Erl,拥塞率高达4.91%2) SDCCH拥塞率=SDCCH占用遇全忙次数/SDCCH占用请求次数(所有的),能引 起SDCCH占用的主要途径有:(a) 、通话建立之前的信令(b) 、切换时的信令(c) 、空闲模式下位置更新所走的信令(3) 由于TCH的话务量正常2.79Erl (TCH的可用数目为6)TCH占用请求次数 (含切换)正常: 318次切换请求次数也正常146次因此推断,有可能是位 置更新过多才导致SDCCH的大量占用4) 检查该基站的LAC号:0500,该基站周围其他小区的LAC号都为0520。
将 该基站的LAC号改为0520之后,忙时SDCCH占用请求次数为298次,拥塞率为 0,话务量为0.27Erl,不再拥塞建议与总结](1) LAC号的设置要注意,尽量利用移动用户的地理分布和行为进行LAC的区域 划分,达到在位置区边缘位置更新较少的目的例如在高话务的大城市,如果存 在两个以上的位置区,可以利用市区中山体、河流等地形因素来作为位置区的边 界,减少两个位置区下不同小区的交叠深度如果不存在这样的地理环境,位置 区的划分尽量不要以街道为界,边界不要放在话务量很高的地方(比如商场) 一般要求位置区边界不与街道平行或垂直,而是斜交在市区和城郊交界区域, 一般将位置区的边界放在外围一线的基站处,而不是放在话务密集的城郊结合 部,避免结合部用户频繁位置更新设置范围太大或太小都不好,建议同一位置 区内载频数不超过 300 个2) 更改LAC号要注意,要保证不要出现同CGI的小区在BSS侧更改之后,一 定要在 MSC 做相应的更改。