第十九章故障及问题管理1、 故障是系统运转过程中出现的任何系统本身的问题,或者是任何不符 合标准的操作、已经引起或可能引起服务中断和服务质量下降的事件2、 故障处理是指发现故障之时为尽快恢复系统IT服务而采取必要的技术 上或者管理上的办法3、 故障的特征:影响度、紧迫性、优先级4、 故障管理目标:尽可能快地恢复服务级别协议规定的水准,尽量减少 故障对业务运营的不利影响,以确保最好的服务质量和可用性5、 常见故障:硬件及外围设备故障(主机宕机、设备无故报警、电力中 断、网络瘫痪、打印机无法打印)应用系统故障:服务不可用、无法登录、系统出现bug 请求服务和操作故障:忘记密码、未做来访登记6、 故障管理包含了: 1、故障监视2、故障调研3故障支持和故障处理4、故障终止P441页图:还包括:故障分析定位故障处理跟踪7、 故障接触的人员:1、故障现场接触人员2初级支持人员3高级支持人员8、 故障原因分类:⑴ 主要3类:技术因素、应用性故障、操作故障⑵扩展到7类:按计划的硬件、操作系统的维护操作时引起、应用性故障、 人为操作故障、系统软件故障、硬件故障、相关设备故障、自然灾害9、 监视的项目及监视方法:人员、规范操作的执行、硬件和软件是故障 监视的重点所在。
1、对系统硬件及设备的监视包括:各主机服务器及其主要部件、专门 的存储设备、网络交换机路由器等 监控方法:主要是采用通用或者专 用的管理监控工具,它们通常具有自动监测、跟踪和报警的若能2、以软件的监视主要针对:其应用性能、软件bug和变更需求监控方法:也可以采用管理监控工具,但通常应用系统的缺陷由专门 的测试工程师负责监视,或者使用过程中由用户发现并提出3、需要监视的人员包括:系统操作员、系统开发工程师、用户、来访 者,甚至包括系统所在机房的清洁工和运输公司的职工 要对他们与系 统的接触过程中的行为进行跟踪和记录,防止或者及早发现非标准的操作 带来的系统故障或服务故障10、 故障的信息来源:服务台、系统、用户和其他IT部门故障调研过程:故障信息搜集、故障查明和记录(确认影响、问题管 理、密切跟踪进展)11、 故障定位分析:中央处理器的故障定位、外围设备的故障定位、电源部件的故意定位12、 故障得到解决后,服务台应该确保哪些工作?1、 有关用于解决故障的行为的信息是准确易懂的2、 根据故障产生的根本原因对其进行归类3、 客户口头同意故障解决方案和方案执行的最终结果4、 详细记录了故障控制阶段的所有相关信息:客户是否满意和满意度如何、处理故障所花费的时间、故障终止的日期和时间。
13、 服务台负责跟踪和监督所有故障的解决过程,在这个过程中,服务台 要做到哪些要求?1、 监督故障状态和故障处理最新进展及其影响服务级别的状况2、 特别要注意故障处理责任在不同专家组之间转移3、 更多地注意高影响度故障4、 及时通知受影响的用户关于故障处理的最新进展5、 检查相似的故障14、主机故障恢复措施:(根据所提供的备份类型不同)热重启丁、暖重启2-3T、冷重启 10-100T15、 数据库故障主要分为事务故障、系统故障(软)和介质故障(硬)事务的故障由系统自动完成,恢复步骤如下:1、 反向扫描日志文件,查找该事务的更新操作2、 对该事务的更新操作执行逆操作,也就是将日志记录更新前的值 写入数据库3、 继续反向扫描日志文件,查找该事务的其他更新操作,并做同样 处理4、 如此进行下去,直到读到了此事务的开始标记,事务故障恢复就 完成了系统故障的恢复是由系统在重新启动时自动完成步骤如下:1、 正向扫描日志文件,找出故障发生前已经提交的事务,将其事务 标识记入重做(redo)队列同时找出故障发生时尚未完成的事务,将 其事务标识记入撤销队列(undo).2、 反向扫描日志文件,对每个undo事务的更新操作执行逆操作, 也就是日志记录中更新前的值写入数据库。
3、 正向扫描日志文件,对每个redo事务重新执行日志文件登记的 操作,也就是将日志记录中更新后的值写入数据库介质故障的恢复方法是重装数据库,然后重做已完成的事务,具体 步骤如下:1、 装入最新的数据库后备副本,使数据库恢复到最近一次转储时的 一致性状态2、 装入相应的日志文件副本,重做已完成的事务介质故障的恢复需要DBA的介入,DBA只需重装最近转储的数据 库副本和有关的各日志文件副本,然后执行系统提供的恢复命令, 具体的恢复操作仍由DBMS完成16、 网络故障恢复措施:(当遇到线路故障或是网络连接问题时,需要利用 备用电路或者改变通信路径等恢复方法,具体的途径如下)1、双主干2开关控制技术 3路由器 4通信中件17、 问题概念:是存在某个未知的潜在故障原因的一种情况,这种原因会 导致一起和多起故障18、 已知错误是指问题经过诊断分析后找到故障产生的根本原因,并制定 出可能的解决方案时所处的状态18、 问题控制流程是一个有关怎样有效处理问题的过程,其目的是发现故 障产生的根本原因(如配置项出现故障)并向服务台提供有关应急措施的 意见和建议19、 错误控制是解决已知错误的一种管理活动问题预防是指在故障发生之前发现和解决有关问题和已知错误,从而 使故障对服务负面影响其与业务相关成本降到最低的一种管理活动。
20、 问题管理和控制的目标主要是什么?1、 将由IT基础架构中的错误引起的故障和问题对业务的影响降到最低 限度2、 找出出现故障和问题的根本原因,防止再次发生与这些错误有关的 故障3、 实施问题预防,在故障发生之前发现和解决有关问题21、 相关逻辑:① 故障是任何不符合标准操作,并且已经引起或可能引起服务中断 和服务质量下降的事件它产生的原因可以比较明显,不需要进一步调查 就可解决② 问题是导致一起和多起故障的潜在的、不易发现问题原因问题 需要被调查后才能确认,故障和问题之间不是一对一的关系,而是多对 多的关系:一个故障可能有多种原因,一个故障可能对应着某个问题,同 样,一个问题可能是对多个故障的调查后被确认的③ 已知错误是一个故障和问题,而且产生这个故障和问题的根据原 因已查明,并已找到它的临时办法和永久性的替代方案④ 变更请求适用于记录有关变更内容的书面文件和电子文档22、 问题的管理流程:1信息输入内容:1故障信息、2故障处理定义的应急措施、3系统配置信息、4供应商提供的产品和服务2、 主要活动(管理流程)内容:1问题控制、2错误控制、3问题预防、4制作管理报告3、 信息输出内容:1已知错误、2变更请求、3更新的问题记录、4已解决问题的记 录、5故障与问题和已知错误的匹配信息。
6其它管理信息23、 问题管理流程涉及问题控制、错误控制、问题预防、管理报告24、 问题分类标准:目录、影响度、紧迫性、优先级25、 问题控制:1发现和记录2归类3调查和分析4问题控制图(右:跟踪和监督 左:问题管理数据库)书P454页26问题分析方法主要4种:Kepner&Tregoe法、鱼骨图法、头脑风暴法、 流程图一、 Kepner&Tregoe法:是一种问题分析方法,出发点是解决问 题是一个系统的过程,利用已有的知识和经验1定义问题、2描述问题(标识、位置、时间、规模和范围)、3找出产生问题的可能原因、4测试最可能的原因、5验证问题原因⑵应用头脑风暴法4原则:畅所欲言、强调数量、不做评论、相互 结合⑶头脑风暴法是一种激发个人创造性思维的方法,常用于解决问题的方法的前三步:明确问题、原因分析、获得解决问题的创新性方案26、 错误的控制包括:发现和记录错误、评价错误、记录错误解决过程、 终止错误、跟踪监督错误解决过程图P457左边是:问题是管理数据库27、 错误控制系统中有关已知错误的数据来源 主要有两个:运行过程和开发过程28、 问题预防主要包括两项活动:趋势分析和制定预防措施趋势分析:1、找出IT基础架构中不稳定的组件,分析其原因,以便 采取措施降低配置项的故障对业务的影响。
2、 分析已发生的故障和问题,发现某些趋势3、 通过其它方式和途径分析(系统管理工具、会议、用户反馈、与客 户和用户的座谈会、客户和用户调查)29、 损害指数的指标:1故障出现次数、2受影响的客户数、3解决故障 所需时间和成本、4业务损失30、 管理报告包括以下几方面:事件报告、产品质量、管理效果、常规 问题管理与问题预防管理之间的关系、问题状态和行动计划、改进 问题管理的意见和建议课后练习:1、系统故障包括哪些类别?举例说明答:1硬件及外围设备故障(主机宕机、设备无故报警、电力中断、网络 瘫痪、打印机无法打印)2应用系统故障:服务不可用、无法登录、系统出现bug3请求服务和操作故障:忘记密码、未做来访登记2、人员为什么是故障监视的重点?哪些人员应当被纳入故障监视的范围内?故障接触人员在故障监视过程中有着重要的影响和作用,为了尽快发 现和应对故障,同时防止非规范操作扩大故障对系统和业务的影响,需要 对故障接触人员进行严格管理,故障监视应该针对不同故障接触人员指定 监视职责,制定相关操作手册,而故障接触人员应该严格按照规定执行操 作和报告同时,故障接触人员本身及其活动也是监视项目需要监视的人员包括:系统操作员、系统开发工程师、用户、来访者, 甚至包括系统所在机房的清洁工和运输公司的职工。
3网络故障时的处理办法有哪些?1双主干,当发生故障时,辅助网络就会承担数据传输的任务,两条 主干线缆的物理距离应当相距较远,来减少两条线缆同时损坏的概率2开关控制技术,由开关控制的网络可以精确地检测出发生的故障的 地段,并用辅助路径来分担数据流量,同时,可以通过网络管理控制程序 来管理网络,部件故障可以很快显示在控制程序界面上并响应故障3路由器,一些故障导致必须从别的路径访问别的服务器,这时路由 器可以为数据指明流动的方向4通信中件,通信中件可以使通信绕过网络中发生故障的电路,通过 其他网络连接来传输数据4、简述Kepner&Tregoe问题分析法的分析步骤1定义问题,调查是根据定义问题进行的,因此问题定义必须明确指 出IT服务偏离服务级别协议的情况2描述问题,包括问题的(标识、位置、时间、规模和范围)3找出产生问题的可能原因,根据第二步的比较和实施的就更,尽量 发现问题生产的可能原因4测试最可能的原因,评价每个可能原因以确认其是否就是形成问题 症状的原因5验证问题原因通过上一步的测试后,剩余的可能原因需经进一步 测试确认其是否是产生某个问题的真正原因。