AIX 简单故障维护手册AIX 简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类为了规范故障维护步骤,简化 维护过程,编写本手册以供参考由于AIX故障种类多,不能一一列举,这里简单介绍部 分故障判断,定位,解决方法一. 故障的定义.弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么?.故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置检查机器是否存 在故障一般情况下,可以通过以下几种方法来收集错误信息1. 查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有 故障的一个依据当指示灯的状态不正常时,需要引起注意比如,当机器警告灯亮的时候, 一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息2. 查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息故障记录文 件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用 errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T (类型):P永久;T临时;U未知(永久性的错误应引起重视)C (分类):H硬件;S软件;O用户;U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID 用大小写均可 例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level 00Diagnostic Level 00Displayable Message SCSIEC Level C25928FRU Number 30F8834Manufacturer IBM97FPart Number 59F4566Serial Number 00002849ROS Level and ID 24Read/Write Register Ptr 0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3.控制面板上的 LED 代码.一般为 8 位代码,通常系统故障灯会同时亮起。
某些机型还会同时显示故障设备位置代码 .4 位代码,通常是 Exxx3位代码,通常为Oyyy,只看后3位8 位和4 位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diag nostic In formation for Multiple Bus System) .闪动的888,系统崩溃,硬件或软件原因造成按reset键会显示更多内容888-102 —般为软件故障(888-102-207例外)系统会产生一个 dump888-102-xxx-0C9 系统正在做 dump, 请等待888-102-xxx-0C0系统dump完成,可关电重启888-103 或 105硬件故障,一般有 SRN 代码及位置代码4.SMS (System Management Service) 故障记录当主控台出现键盘图标后(LED显示E1F1时)按1键进入SMS菜单选择"Utilities"选择"Error Log",抄下8位故障代码(在 SMS 中还可以更改系统启动顺序表)5.MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复,系统会 定时提醒 root。
6. 运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断 当发现有硬件故障时应立即使用 diag#diag>; 选高级诊断( Advance Diagnostic)>; 选问题诊断( Problem Determination) 或 选系统检查( System Verification)(选 PD 会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析7. 查看系统重要记录日志 在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志 这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明a. 系统启动日志 系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载 后台进程的启动等信息这些信息在错误日志没有完整的记录,但是通过查看启动日志,可 以得到详细的信息查看系统启动日志的命令为alog -o -t bootb. smit.logsmit.log记录了通过smit菜单执行命令的过程和结果信息。
通过查看smit.log可以知道在系 统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故 障Smit.log在系统根目录下,通过cat命令就可以查看c. HACMP.OUTHacmp.out文件记录HACMP发生切换时候的详细过程和结果信息查看hacmp.out文件可 以知道系统出现什么原因而引起切换,从而判断是否有故障发生二. 判断故障类别1.硬件故障通常将硬件故障分为以下几个类别IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和 SRNCheckpoints检查点是系统加电CMOS初始化程序(initial program load (IPL)运行后显示在I/O 柜的显示面板上一系列信息IPL 流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase 1: Service Processor 的初始化Phase 1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止在这个 步骤会显示 8xxx 或 9xxx checkpoints 代码 Phase 2: 由 Service Processor 引导的硬件初始化Phase 2开始于按下I/O柜上的白色电源开关。
在这个步骤会显示9xxxcheckpoints °91FF是最后的代码标志着第三步骤的开始. Phase 3: 系统固件的初始化在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx E105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分). Phase 4: AIX 启动当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行当AIX的 登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现Error Code 当系统运行有错误发现时,一个8 位码会显示在显示面板上,同时在第二行显 示相对应问题硬件的位置码SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载用diag命令进 行检测, diag 步骤如下:#diag>; 选高级诊断( Advance Diagnostic)>; 选问题诊断( Problem Determination) 或 选系统检查( System Verification)(选 PD 会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等2. 操作系统故障系统无法正常操作,命令无法正常执行,或者系统频繁的报系统问题,都有可能是操作系统 故障造成的。
软件故障情况错综复杂,下面列举几个常见案例的故障处理方法1) 文件系统空间不够查看有没有''满〃的文件系统特别是/、/var、/tmp,不要超过90%文件系统满可导致系 统不能正常工作,尤其是AIX的基本文件系统如/(根文件系统)满则会导致用户不能登录 用df —k查看 df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%处理方法 1:删除垃圾文件# du -sk * |sort -rn |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
要区分哪 些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间有时 删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开只有当这个程序 停止后空间才释放,有时甚至需要重起系统处理方法 2:增加文件系统大小# smitty chjfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间2) 检查文件系统的完整性# umount filesystem_name# fsck -y filesystem_name注意:文件系统必须先 u m o u nt ,再做检查和修复,否则可导致未 知的后果3) 查看卷组信息(Isvg -I vg_name):有没有"stale"状态的逻辑卷若有,用syncvg命令修复"stale"逻辑卷4) 检查内存交换区(pag ing space)使用率(lsps -s):使用率是否超过70%,若有则用chps -sX pgname增加X个PP或用mkps -a-n -sX myvg 在myvg上增加一个PP数为X的内存交换区外连设备故障与 RS6000 机器相连的其他设备发生故障时,会对主机造成影响,从而引发故障比如网络 交换机故障,外置存储故障等等。
常见故障记录汇总1.7133 硬盘故障故障:在AIX系统中用#errpt -aj|more命令查看到有描述为“pdiskx error"级别显示为“H" 类型显示为“P”分析:含有该报错的服务器所连接的存储可能发生物理硬盘损坏的故障用户可以用以下命令察看7133 RAID的状态在 AIX 系统中用 #smitty ssaraidList Status of all Defined SSA RAID Arrays当RAID中的硬盘出现问题时,此RAID的状态是“degraded”可用以下命令判断硬盘是否被被阵列(Array)剔除(reject):在AIX系统中用#smit ssaraidList/Identify SSA Physical DisksList Rejected Array Disks 如果看到 pdiskx 被阵列剔除,说明该 pdiskx 存在物理故障 解决:更换该 pdiskx 的物理硬盘2.机器电源故障故障:查看IBM服务器如果前面板上有黄色报警灯亮起,并且在服务器电源处电源灯亮黄 色报警灯或者有不正常闪烁在在AIX系统中用#errpt -aj|more命令查看到有描述为 “power error”级别显示为“H”类型显示为“P”。
分析:按照该 ERRPT 报错信息与服务器面板及其电源外部报警灯显示情况,可以确定服务 器电源出现硬件故障,必须进行更换按照服务器的不同机器类型可以采取停机更换电源和 不停机更换电源的方法解决:更换该出现故障的电源3.机器环境故障故障:在AIX系统中用#errpt -a|more命令查看到有描述为“TEMPERATURE UNACCEPTABLE”级别显示为“H”类型显示为“P”分析:按照该 ERRPT 报错信息可以确定服务器运行的环境不在健康的环境中,机房温度过 高,不符合在 20 摄氏度的环境中解决:使服务器所在的机房环境达到 20 摄氏度恒温状态4.文件系统故障故障:在AIX系统中用#errpt -a|more命令查看到有描述为“FILE SYSTEM CHECK REQUIED”级别显示为“H〃类型显示为“P〃并且说明某个文件系统需要用fsck命令进行 check分析:按照该 ERRPT 报错信息可以确定该文件系统存在故障,需要人工对其文件系统进行 fsck 操作,从而确保数据的安全性、可靠性和可用性解决:停应用后进行fsck该文件系统5.内置硬盘故障故障:发现硬盘无法进行写操作。
分析:对数据库所在的物理硬盘进行写文件操作,如果写文件操作失败,从而确定该物理硬 盘有故障发生,必须及时更换解决:停数据库后进行物理硬盘的更换6.Ssa 卡电池故障故障:在系统中用errpt命令查看错误日志,发现有大量ssa adapter报错,错误级别显示 为“H"类型显示为“P"错误信息为 ssa adapter performanee degrade分析:对ssa adapter运行diag,返回SRN代码为4252A根据IBM资料,信息如下:4252A Description: The supply voltage to the Fast-Write Cache Option Card islow. The card has switched to Self-Refresh mode.Action: In the sequence shown, exchange the FRUs for new FRUs.Possible FRUs:Fast-Write Cache OptionCard (90%) (“Removing theFast-Write Cache OptionCard of an AdvancedSerialRAID Adapter” onpage 332).SSA adapter card (10%)根据此信息,判断是raid卡上cache电池电量不足,需更换电池。
7.磁带机故障 故障:磁带机面板上亮黄灯 分析:磁带机磁头脏,导致读盘不正常,或无法读盘解决:用清洗带清洗磁头8.文件空间无法释放 故障:某个日志文件不停增大,清空文件后,空间仍未释放 分析:清空文件时,系统对文件存储指针没有被更新,所以空间没有被释放解决:umount该文件所在的文件系统,对该文件系统进行fsck -y即可9.机器启动故障故障:机器重新启动之后,IP地址没有被加载,tcp/ip的后台进程没有启动分析:查看系统boot日志(alog-o -t boot),发现系统启动调用文件时报错,错误信息为permission denied,检查的权限,发现已被更改,无执行权限解决:将的权限更改为54410.LPAR 启动故障故障:一台P630,划分两个lpar,发现只能同时启动一个lpar,另外一个lpar无法启动, 错误信息为 already has a service authority partition分析:在partition属性中有一个service authority的选项,选上之后说明微码升级时是通过 该分区进行一台机器的所有lpar上只能有一个分区有这个选项属性查看两个分析属性 之后,发现两个分区都有这个属性,所以引起冲突,只能有一个可以启动。
解决:将一个分区的service authority属性去掉11.镜像文件系统故障故障:系统中有stale状态的文件系统分析:文件系统的状态有:open, closed, syncd, stale前两项代表当前文件系统是否可以 访问,后两项代表文件系统数据是否完全Syncd是指数据已同步这个应该是正常时显示的, stale是指文件系统数据未同步,这种状态是不正常的解决:用syncvg命令修复"stale"逻辑卷 < 发表于:2005-7-25 17:38看看这个红书,对你 兴许有用Problem Solving&Troubleshooting in AIX 5L1、查找在AIX上清除黄灯(报警)的方法方法1、diag =>task ..…=>log repair action => sysplanarO, entei;F7方法2、用串口进入ASM问题描述:如何熄灭故障报警灯?解答: 在日常工作中,有时会遇到机器面板上的橙色有感叹号标示的硬件故障报警灯亮的情 况硬件故障报警灯是一个发光二极管,它亮表示系统检测到了硬件故障,管理员应该注意 但是硬件故障报警灯是非常敏感的,很多情况下并不是硬件产生了故障它才亮,例如热插拔 某些信号线或者电缆,用户非正常关机等都可能导致该警报灯亮。
此时,管理员应该首先检 查系统错误日志errpt,看一下是否真的有硬件错误如果没有,那么我们可以先将这个灯 熄灭,如果真的有硬件上的故障,它会再次亮的 熄灭故障报警灯有多种方法,普通用户 常用的是用命令行方式或者用 HMC 在命令行方式下,运行 diag 命令: diag -> 回车 ->Task Selection -> Identify and Attention Indicators ->回车选择 Set System AttentionIndicator to NORMAL ->F7 提交,OK 在 HMC控制台上:选择左列的 “Serivce Applications” ->Serivce Focal Point右侧的LED Management中您可以看到LED State,右键可以把它从 On 状态变到 Off 状态。