文档详情

AIX系统维护大全

仙***
实名认证
店铺
DOC
112KB
约37页
文档ID:157924091
AIX系统维护大全_第1页
1/37

AIX系统维护大全-4关键词: AIX    系统维护                                           第 34 楼:RS/6000小型机故障的基本定位方法一 故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的*作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置二 故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要2)系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件、软件及其他*作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DEs criptION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product Data Device Driver Level.........00Diagnostic Level............00Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834Manufacturer................IBM97FPart Number.................59F4566Serial Number...............00002849ROS Level and ID............24Read/Write Register Ptr.....0120Des criptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。

某些机型还会同时显示故障设备位置代码4 位代码,通常是Exxx3 位代码,通常为0yyy,只看后3位8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)闪动的 888, 系统崩溃,硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障(888-102-207 例外)系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成,可关电重启888-103 或 105 硬件故障,一般有 SRN 代码及位置代码4)SMS (System Management Service) 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1时)按1键选择"Utilities"选择"Error Log", 抄下8位故障代码(在SMS 中还可以更改系统启动顺序表)5) MAIL #mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复,系统会定时提醒root。

6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag > 选高级诊断(Advance Diagnostic)> 选问题诊断(Problem Determination) 或选系统检查(System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析7)其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DEs criptORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A ... lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件组信息# lslpp -L |grep 23100020....devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装,如以太网卡驱动。

也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DEs criptIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level....04Device Driver Level.........00Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032 Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD,所含的格式和信息都不一样。

通常备件号和微码版本最有参考价值注:FRU(Field Replace Unit)才是真正的备件号三 硬件故障定位方法IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNsCheckpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息IPL 流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:. Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止在这个步骤会显示 8xxx 或9xxx checkpoints代码 Phase 2: 由 Service Processor 引导的硬件初始化Phase 2 开始于按下I/O柜上的白色电源开关在这个步骤会显示 9xxx checkpoints 91FF 是最后的代码标志着第三步骤的开始. Phase 3: 系统固件的初始化在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。

E105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分). Phase 4: AIX 启动当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载以上所有代码都会有相应的步骤解决由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线系统的启动顺序:.系统不能启动系统停在Stage 1,可能为电源、系统板、CPU、内存等硬件故障记录故障代码通知IBM工程师系统停在Stage 2,可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝试进入SMS 菜单检查启动顺序表,并修改若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。

若根本没有SCSI设备可选则链路有问题系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障系统停在551,555或557发生在系统启动的第三阶段 (Stage 3),可能是:文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动(必须与硬盘中的*作系统版本一致)启动后选择选项3"Start Maintenance Mode for System Recovery"> "Access a Root Volume Group"> "Access this volume group and start a shellbefore mounting the file systems"格式化文件系统日志(jfslog)# /usr/sbin/logform /dev/hd8检查修复文件系统# fsck -y /dev/hd1 (/home 文件系统)# fsck -y /dev/hd2 (/usr 文件系统)# fsck -y /dev/hd3 (/tmp 文件系统)# fsck -y /dev/hd4 (/ 文件系统)# fsck -y /dev/hd9var (/var 文件系统)... ...用 exit 命令退出,文件系统会自动 mount 起来。

重建bootimage # lslv -m hd5 找出bootimage所在的硬盘,如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建启动顺序表重启动系统# shutdown -Fr如上述步骤不奏效用系统备份带恢复系统如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘CDE图形界面挂死CDE 运行时不要更改网络参数(如:主机名和IP 地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改如CDE 已经挂死远程 telnet 登录找出所有dt有关的进程用kill命令杀掉# ps -ef |grep dt ... ...# kill PID检查当前主机名# hostname tscf50查看主机名是否对应有效的IP地址# netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系 smitty tcpip 重新启动CDE界面# /etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg.系统dump发生在系统崩溃时,AIX会做dump(系统内存的快照)。

此时机器会显示闪动的888 102 xxx 0cx 代码:0c9 系统dump 进行中0c9状态可能会维持超过2分钟,不要关电和按reset, 等待dump做完0c0 dump 成功完成,这时可以断电重起0c2 手动启动dump 功能0c4 dump 设备空间不足,只有部分信息保存下来0c5 不明原因导致dump 失败一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376 # lsps -aPage Space Physical Volume Volume Group Size %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes当前的设置#sysdumpdev -l primary /dev/hd6 <-- dump的主设备secondary /dev/sysdumpnullcopy directory /var/adm/ras <-- dump拷贝的目录forced copy flag TRUEalways allow dump TRUE hd6应比估算值稍大。

/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带dump文件名为vmcore.# 对PCI机型如要手动做dump,须把" always allow dump" 先设成true sysdumpdev -Kdump打包# snap -a -o /dev/rmt# 或# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt 第 35 楼:使用lastcomm命令查看用户命令历史使用lastcomm需要启用记账(Accounting)功能需要安装bos.acct文件集执行如下命令为文件和目录设置所需的权限:●cd /var/adm●/usr/sbin/acct/nulladm wtmp pacct启停记账功能:●启动记账功能:执行/usr/bin/su - adm -c /usr/sbin/acct/startup●停止记账功能:执行/usr/bin/su - adm -c /usr/sbin/acct/shutacct如果要在系统启动时自动启动记账功能:●修改/etc/rc文件,加入:/usr/bin/su - adm -c /usr/sbin/acct/startup●使用lastcomm命令,其用法为:lastcomm [ Command ] [ Name ] [ Terminal ],Command为要过滤出来的执行命令,Name为发起命令的用户名,Terminal为用户执行命令时使用的终端设备名执行样例:  代码: [复制到剪贴板]   [H50:root:/var/adm] lastcomm pts/2sh       S     nobody   pts/2          0.20 secs Wed Mar 10 11:50lastcomm       nobody   pts/2          0.05 secs Wed Mar 10 12:00who            nobody   pts/2          0.01 secs Wed Mar 10 12:00lastcomm       nobody   pts/2          0.11 secs Wed Mar 10 12:00netstat        nobody   pts/2          0.02 secs Wed Mar 10 12:00clear          nobody   pts/2          0.01 secs Wed Mar 10 11:59more          nobody   pts/2          0.02 secs Wed Mar 10 11:59vi             nobody   pts/2          0.02 secs Wed Mar 10 11:59sh        F    nobody   pts/2          0.02 secs Wed Mar 10 11:59more           nobody   pts/2          0.01 secs Wed Mar 10 11:59ls             nobody   pts/2          0.01 secs Wed Mar 10 11:59vi             nobody   pts/2          0.02 secs Wed Mar 10 11:59sh        F    nobody   pts/2          0.01 secs Wed Mar 10 11:59more           nobody   pts/2          0.01 secs Wed Mar 10 11:59ls             nobody   pts/2          0.02 secs Wed Mar 10 11:59sh        F    nobody   pts/2          0.02 secs Wed Mar 10 11:59more           nobody   pts/2          0.01 secs Wed Mar 10 11:59ls             nobody   pts/2          0.01 secs Wed Mar 10 11:59man            nobody   pts/2          0.02 secs Wed Mar 10 11:58sh             nobody   pts/2          0.01 secs Wed Mar 10 11:58more           nobody   pts/2          0.02 secs Wed Mar 10 11:58sh        F    nobody   pts/2          0.02 secs Wed Mar 10 11:57more           nobody   pts/2          0.01 secs Wed Mar 10 11:57  注意:使用此功能后,对于命令操作频繁的系统,应定期观察/var文件系统的空间使用情况,必要时用> /var/adm/pacct清空命令历史记录  第 36 楼:关于OS定期检查及维护1、检查系统硬件情况:设备故障灯是否有亮 2、系统错误报告(errlog) errpt -d H -T PERM对有怀疑的进一步:errpt -aj 错误代码|more3、有否发给root用户的错误报告(mail)mail 4、检查hacmp.out,smit.log,boot.log cd /tmpls hacmp.out*找到时间最近的字节不为零的文件,vi查看如果怀疑系统曾经有调整操作,检查/smit.logalog -ot boot5、关键系统的文件使用率不大于80% df -k查看%Used6、逻辑卷有否stale lsvg -l 卷组名称查看状态是否有stale的逻辑卷7、内存交换区使用率是否超过70%lsps -a查看占用率是否超过70% 8、内存交换区的大小是否为物理内存的1.5倍 命令同上现在原则有所改变,2G内存以下可按照1.5倍的标准,2G内存以上如果交换区占用率不高,可用2GB标准9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗) 口头询问:系统备份、数据备份检查磁带机面板,提醒用户清洗10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等) netstat -innetstat -rnnetstat -ivi /etc/hosts检查DNS相关文件内容11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare 如果是7133,diag→Task Selection→SSA Service Aids→Link Verification,smitty ssaraidFAStT产品使用其管理软件Storage Manager查看ESS使用ESS控制台查看12、系统DUMP设置是否正确sysdumpdev -l 13、检查系统参数是否正确1)/etc/environment中的TZ不能有夏时制 vi /etc/environment检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式2)如有数据库:Aio:available lsdev -C|grep aio查看其状态是否available如不是:smitty chgaio,将状态修改为available,重启系统3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24如果系统中运行了HACMPsmitty chgsysy,将High/Low water mark从0/0修改为33/244)HACMP中Syncd:10如果系统运行了HACMP查看/etc/inittab,将syncd后次参数修改为10,然后telinit q,kill -9 "syncd's PID"5)HACMP中Power Monitor off 14、检查rootvg是否有镜象 lsvg -l rootvg查看镜像15、检查errdaemon,srcmstr是否正常运行 ps -ef|grep errps -ef|grep src16、机房环境(电压、湿度) 基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)湿度:45%—70%17、系统性能:有否性能瓶颈(topas,vmstat) 18、补丁程序(PTF)、微码(是否需要升级)instfix -i|grep ML查看补丁级别及是否完整;lscfg -vp检查所有硬件设备微码19、HACMP测试:Cluster Verification smitty hacmp→Cluster Configuration→Cluster Verification20、系统硬件诊断 diag→Advanced Diagnos...→Problem Determination21、运行#snap -ac,生成文件snap+s/n.pax.Z 22、机器清洁 第 37 楼:关于AIX系统文件安全性方面的几点考虑这篇文章主要讨论在AIX系统上如何检查文件、目录和可执行程序的安全性,以防止可能的安全方面的隐患。

1. 删除垃圾文件很多程序运行完毕后,会在/tmp目录下留下很多的垃圾文件AIX系统提供一个命令skulker,它可以删除/tmp目录下的a.out文件、core文件和ed.hup文件具体的命令执行方式为:      # skulker -p2. 删除无所有者的文件在AIX系统上如果一个用户被删掉后,原来属于这个用户的文件将变成无所有者的文件可以用下面命令来找出这些文件:      # find / -nouser -ls如果找出得文件还有用,可将它们指定到已存在的某些用户下否则就删除这些文件3. 管理未授权的远程访问某些程序使用.rhosts文件访问远程系统但有时这种做法会被未授权的用户使用为避免这种情况,可删除.rhosts文件在HACMP环境下,.rhosts文件是需要的这时需要将.rhosts文件的访问权限设为600,并且是所有者是root.system可用下面命令查找.rhosts文件:      # find / -name .rhosts -ls4. 监视可执行文件的属性在监视某些可执行文件之前,需要了解这些文件是如何被使用的尤其是要监视那些所有者是root,文件方式字中有SUID和SGID设置的文件。

通过以下命令可以找出满足上面条件的所有文件:      # find / -perm -4000 -user 0 -ls      # find / -perm -2000 -user 0 -ls保存上面命令的输出结果定时运行这两条命令,并与保存的结果相比较,看是否有未知的文件出现,以杜绝可能的安全隐患5. 管理cron和at运行的后台作业必须做如下内容:- 确认只有root用户在cron.allow和at.allow文件里 从目录var/adm/cron中删除cron.deny和at.deny文件 确保cron和at作业的所有者是root并且只能由root可写上面所谈的内容对AIX系统在文件方面的安全性有指导意义在具体考虑使用AIX系统的安全性时,还应该考虑更多方面的内容关于AIX系统文件安全性方面的几点考虑(续) IBM互联网服务器部 李一峰 这篇文章主要讨论关于X11和CDE(Common Desktop Environment)方面的安全问题1. 删除/etc/rc.dt文件虽然运行CDE图形环境方便了用户使用AIX,但同时也带来了安全隐患所以,对于那些要求较高安全性的系统来讲,就不应该运行CDE。

最好的方法是不安装CDE(dt)软件包如果已经安装了这些软件包,应考虑删除它们,尤其是启动CDE的脚本文件/etc/rd.dt2. 屏蔽X服务器的远程监视功能一个重要的安全问题是X11服务器的远程监视机制xwd和xwud常被用于监视X服务器的活动状况,它能够捕捉到键盘的敲击结果,因此可能泄露密码或其它敏感信息为防止这种情况的出现,可以删除这些可执行程序或者将其执行权限定为root可以执行xwd和xwud可以在文件包X11.apps.clients中找到如果需要使用xwd和xwud命令,可以考虑使用OpenSSH或MIT Magic Cookies这些第三方厂家的软件可以有效的防止使用xwd和xwud命令时带来的风险3. 禁止用户使用xhost命令确保只有指定的用户可以使用xhost命令,或指定只能超级用户才能使用,方法是运行chmod命令修改/usr/bin/X11/xhost的属性:# chmod 744 /usr/bin/X11/xhost确认在运行xhost命令时,指定hostname,否则将允许所有的远程主机访问本机,这将带来潜在的危险性 第 38 楼:AIX资源监控与调制工具本文出自: 作者: 陆成新 (2002-04-15 06:02:01) 性能优化以及确定系统中的性能瓶颈是系统管理员的主要任务之一。

在一个计算机系统中,CPU、内存、硬盘和网络是影响系统性能的主要因素,因此系统性能调整也主要在于如何在这些资源中获得某种平衡,以满足人们对系统性能的期望性能调制需要很多技巧,知识以及经验,不能仅靠分析统计数字,图表就可取得,性能调制有时是一件复杂甚至是非常困难的任务 如同其它UNIX系统一样,AIX也给系统管理员剪裁系统提供了非常丰富的手段这里我们简单介绍RS/6000 AIX系统中几个用于监控和调制多项系统资源的工具,每个工具的功能都很强,如想更透彻地了解这些命令的用法,请参考有关技术资料或手册这里讲述的命令将不仅仅局限于CPU、硬盘、内存或网络资源的某个方面,它们可用于其中的一项或多项资源 AIX监控工具 1、iostat iostat命令主要通过观察物理磁盘的活跃时间以及他们的平均传输速度,监控系统输入/输出设备负载根据iostat命令产生的报告,用户可确定一个系统配置是否平衡,并据此在物理磁盘与适配器之间更好地平衡输入/输出负载 iostat工具的主要目的是通过监控磁盘的利用率(tm_act字段),而探测到系统中的I/O瓶颈iostat还可用于确定CPU问题,辅助容量规划,并可以为最终解决I/O问题提供相关材料。

vmstat和iostat联合使用,可捕获到确定与CPU,内存和I/O子系统有关的性能问题的必需数据 iostat命令可产生下面四种类型的报告: · tty和CPU利用情况 · 磁盘的利用情况 · 系统吞吐率 · 适配器吞吐率 2、netpmon netpmon命令可以监控关于网络行为的系统事件和性能以及网络行为对CPU的消耗netpmon命令在指定的监控周期报告网络行为 netpmon启动后直至发布trcstop命令终止它之前,一直在后台运行如果使用缺省设置,trace命令将会在netpmon命令之后立即自动启动另外,netpmon中还可用trcon命令选择在后面的某个时间跟踪当这种跟踪用trcstop命令终止后,netpmon命令就会输出它的报告并退出缺省时报告会输出到标准输出,需要时也可以重定向到某个文件 netpmon命令还可以在一次先前产生的跟踪中以脱机模式使用在这样的情况下,需要用gennames命令产生一个文件该文件必须在trace终止后立即产生 所产生的报告中包括CPU使用情况、网络设备驱动器I/O情况、互联网络套接字调用,以及网络文件系统(NFS)I/O信息: · CPU use:netpmon命令报告线程和中断处理器对CPU的使用情况。

该命令将网络相关行为的CPU使用情况与其它行为的CPU使用情况区分开 · Network Device Driver I/O:netpmon命令监控网络适配器上所通过的I/O统计 · Internet Socket Calls:netpmon命令在互联网络套接字上监控read,recv,recvfrom,write,send以及sendto子程序ICMP,TCP,UDP这几个协议的每个进程都会予以报告 · NFS I/O:netpmon命令监控客户NFS文件上的read和write子程序,NFS客户上的RPC请求以及NFS服务器的read和write请求 3、PDT(性能诊断工具) PDT通过收集和集中各种性能、配置和可用数据自动找出性能问题PDT评估系统的当前状态并跟踪系统在工作量和性能上的变化PDT数据收集和报告很容易起用,不需要更多的管理行为 虽然许多常见的系统性能问题都有特定性,但PDT还试图用一些被认为性能好的系统中的通用概念来帮助它查找问题这些概念包括: · 资源的平衡使用 · 在限定范围操作 · 确定的工作量趋势 · 无错误操作 · 系统参数得到适当设置 4、ps ps命令是UNIX系统中最常见的命令,它主要显示系统中关于进程的统计和状态信息,如进程ID,I/O行为以及CPU利用率等。

利用ps命令提供的信息,可决定一个进程运行了多长时间,进程使用了多少CPU时间,以及进程是否受系统的惩罚还可用ps命令确定进程使用了多少内存,完成多少I/O,进程的优先级以及是谁创建了进程 下面这几个命令组合对于管理RS/6000 AIX系统有帮助: (1)显示10个消耗CPU最多的进程: # ps aux |head -1 ;ps aux |sort -rn +2 |head –10 (2)显示10个消耗存储空间最多的进程: # ps aux |head -1 ;ps aux |sort -rn +3 |head -10 (3)按顺序显示系统中受罚的进程: #ps -eakl |head -1 ;ps -eakl |sort -rn +5 (4)按优先级顺序显示系统中的进程: #ps -eakl |sort -n +6 |head (5)按处理时间为顺序显示系统中的前十个进程: #ps vx |head -1 ;ps vx |grep -v PID |sort -rn +3 |head –10 (6)按实际内存使用的多少顺序显示系统中的前十个进程: #ps vx |head -1 ;ps vx |grep -v PID |sort -rn +6 |head –10 (7)按换入页面的多少顺序显示系统中的前10个进程: #ps vx |head -1 ;ps vx |grep -v PID |sort -rn +4 |head -10 5、vmstat vmstat命令报告关于核心线程,虚拟内存,自陷(trap),磁盘以及CPU行为的统计。

而且每种行为报告都被更细致地用百分比分别表示用户态、核态、空闲以及等待磁盘I/O等情况 内核维持了对核心线程,换页以及中断行为的统计数据,而vmstat命令则通过使用knlist子程序和/dev/kmen伪设备驱动器访问这些数据磁盘的输入/输出统计是通过设备驱动器维持的对于磁盘,平均传输速度是通过使用活跃时间核传输信息数目决定的而活跃时间百分比则是从报告期间驱动器忙的时间量计算出来的 vmstat命令产生五种类型的报告: · 虚存行为报告 · fork子进程情况报告 · 每个设备产生的中断情况报告 · 汇总报告 · 输入/输出行为报告 6、sar sar命令报告CPU的使用情况,I/O以及其它系统行为sar命令可以收集,报告以及保存系统行为信息如果没有指定输入文件,则sar调用sarc命令访问系统数据 用户可用让cron命令运行两个shell脚本(/usr/lib/sa/sa1和/usr/lib/sa2)以提供日统计和报表在crontab文件/var/spool/cron/crontabs/adm中包括了一些样本节,用于示范cron要在何时运行这些shell脚本以这种方式收集到的数据对于确定系统的时间周期特征和决定峰值使用时间是有用的。

但要注意的是,sar命令自己运行时会产生相当数量的读写因此最好在没有工作量的情况下运行sar统计,看看sar对总的统计数字有多大的影响 7、topas topas命令用于监控各种系统资源,如CPU的使用情况,CPU事件和队列,内存和换页空间的使用,磁盘性能,网络性能以及NFS统计等它还会报告指派给不同WLM类的进程对系统资源的消耗情况它还能报告系统中最热门的进程和工作量管理器(WLM)的热门类有关WLM类信息只有在WLM激活时才会显示topas命令将热门进程定义为那些使用大量CPU时间的进程topas命令没有作日志的选项,所有信息都是实时的 topas命令利用System Performance Measurement Interface(SPMI)API获得有关信息正是因为通过SPMI API,使系统开销保持在最小程度topas命令使用perfstat库调用访问perfstat内核扩展 8、truss truss命令跟踪一个进程的系统调用、所接收的信号以及招致的机器错要检查的应用程序可在truss命令的命令行中指定,也可将truss命令挂在一个或多个已经在运行的进程上 AIX调制工具 1、fdpr fdpr命令改进用户级程序和库的执行时间和对实际内存的使用。

fdr命令可以通过不同的操作,如删除不必要的指令和重组代码和数据,而实现这样的目标fdr命令安装在目录/usr/bin下 fdpr命令在三个不同阶段上,对原有的执行代码应用先进的优化技术从而为其构筑一个优化的可执行代码这三个阶段分别是: · 在阶段1,fdpr创建一个增加了某些装置(instrumented)的可执行程序原有的可执行程序被保存为__ProgramFile.save,而新版本被命名为__ProgramFile.instr · 在阶段2,fdpr运行该增加了某些装置的可执行程序,并收集摘要(profiling)数据该摘要数据被保存在一个叫__ProgramFile.prof的文件中运行执行程序时需要为它提供典型的输入数据,以使fdpr命令能够找出代码中可优化的部分 · 在阶段3,fdpr命令使用阶段2中收集到的重要信息对可执行代码重新排序这些重新排序涉及到这样一些任务: (1)将那些高频度执行代码序列包装在一起 (2)对条件分之重新排序,以改进硬件对分之条件的预测 (3)将较少使用的代码部分移出来 (4)内嵌一些热门函数 (5)从重排序后的代码中删除掉NOP(空操作)指令 另外,编译器中还提供了一个-qfdpr标志,用它可使编译器在执行代码中增加一些额外的信息,以辅助fdpr对该执行代码重新排序。

但是,如果使用这个-qfdpr标志,则fdpr也只对那些用-qfdpr标志编译的模块重新排序 2、schedtune schedtune命令可以给抖动、进程挂起、时间片以及线程在锁上所能轮询的时间长度等设置准则 用schedtune,可调整AIX中设立的一组影响其内存负载控制机制的参数Schedtune命令用于显示和修改那些用于检测系统内存是否在过度使用以致造成抖动的参数Schedtune命令还能用于修改运行在系统上的进程的惩罚和衰减因子在root用户下,用schedtune命令可做下面的事情: · 决定用于确定抖动的准则 · 决定哪个准则用于挂起进程 · 决定在抖动终止后要等待多长时间才重新激活那些先前被挂起的进程 · 决定被挂起的进程的最小数目 · 调制调度优先级公式 · 更改时间片数值 · 决定在一把锁上轮询多长时间 · 将schedtune值复位到它的缺省值 需要注意的是,所有用schedtune作的修改在系统重启后都将丢失为了确保所需的schedtune值在引导时能够置上,可在/etc/inittab文件中插入适当的schedtune命令如:schedt:2:once:/usr/samples/kernel/schedtune -s 65536 3、vmtune vmtune命令负责显示和调整虚存管理器(VMM)和其它AIX部件使用的参数。

系统中的根用户可动态修改包括下面这些参数: · VMM页替换 · 永久文件读写 · 文件系统缓冲区结构(bufstructs) · LVM缓冲区 · 裸输入/输出 · 换页空间参数 · 页删除 · 内存固定参数 第 39 楼:fastt动态扩展容量在fastt中,用SM可以动态扩展容量如果是aix4.3.3 或 AIX 5.1,仍然不可以升级 1. umount 文件系统2. varyoffvg datavg 3. rmdev -1 hdisk14. cfgmgr –v5. lsattrr -El hdisk16. varyonvg datavg7. chvg -g datavg8. mount 文件系统 如果是aix5.2,支持直接chvg -g datavg 注意在用chvg -g时,会有一个报警,选择yes. 第 40 楼:aix操作系统的备份和恢复备份和恢复是系统管理员经常要做的事情, 主要包括rootvg备份和用户数据备份.   1. 操作系统和系统程序的备份:   将一盘新磁带或无用磁带插入磁带机   #tctl -f /dev/rmt0 rewind   #smit mksysb      在"备份设备或文件"中添入"/dev/rmt0"后回车.   系统会运行很长时间, 等到屏幕显示OK后拿出磁带. 这时候, 系统备份完成. 注意: mksysb仅备份rootvg中已安装的文件系统.   2. 用户数据备份   · 常用磁带机选项   /dev/rmt0: 若选择/dev/rmt0, 在插入磁带和写完一次磁带时, 磁带机都将磁带反绕到头. 因此, 下一次备份文件将覆盖本次备份.   /dev/rmt0.1: 若选择/dev/rmt0.1, 则插入磁带和写完一次磁带时, 磁带机均不反绕磁带. 因此, 一盘磁带可以连续备份几个文件或文件系统.   · #smit fs   选择"备份文件系统"   添入要备份的"文件系统名称"   添入"/dev/rmt0.1"    。

下载提示
相关文档
正为您匹配相似的精品文档