网络管理的故障管理
时间:2013-8-27
故障管理是网络管理中最基本的功能之一,用户都希望有一个可靠的计算机网络,当网络中某个组成部分发生故障时,网络管理器必须迅速查找到故障并及时排除,故障管理的主要任务是发现和排除网络故障,故障管理用于保证网络资源的无障碍,无错误的运营状态,包括障碍管理,故障恢复和预防保障,障碍管理的内容有告警,测试,诊断,业务恢复,故障设备更换等,预防保障为网络提供自愈能力,在系统可靠性下降,业务经常受到影响的准故障条件下实施,在网络的监测和测试中,故障管理参考配置管理的资源清单来识别网络元素,如果维护状态发生变化,或者故障设备被替换,以及通过网络重组迂回故障时,要与资源MIB互通,在故障影响了有质量保证承诺的业务时,故障管理要与计费管理互通,以赔偿用户的损失.
通常不大可能迅速隔离某个故障,因为网络故障的产生原因往往棹当故障是由多个网络组成部分共同引起的,在此情况下,一般先将网络修复,然后再分析网络的原因,分析故障原因对于防止类似故障的再次发生相当重要,网络故障管理包括故障检测,隔离故障和纠正故障3个方面,应包括以下典型功能:
1.维护并检查错误日志;
2.接受错误检测报告并作出响应;
3.跟踪辨认错误;
4.执行诊断测试;
5.纠正错误.
对网络故障的检测依据对网络组成部件状态的监测,那些不严重的简单故障通常被记录在错误日志中,并不作特别处理,而严重一些的故障则需要通知网络管理器,即所谓的"警报".一般网络管理器根据有关信息对警报进行处理,排除故障,当故障比较复杂时,网络管理器应能执行一些诊断测试来辨别故障原因.