5并行计算环境及作业调度,成都信息工程学院项目实施,Putty,是一个免费的、,Windows 32,平台下的,telnet,、,rlogi,和,ssh,客户端,其主要优点如下:,完全免费,在,Windows,下运行的都非常好,;,全面支持,ssh1,和,ssh2,;,绿色软件,无需安装,下载后可直接使用;,体积很小;,操作简单,所有的操作都在一个控制面板中实现putty,下载地址:,http:/ linux 10.2,系统的,Remote,远程管理功能;,Redhat Linux,系统默认已经打开,Remote,远程管理功能2,、,Suse Linux 10.2,系统配置如下:,node253:,#yast2,,选择,Remote Administration,Xmanager,使用方法,服务端配置,安装,Xmanager3,软件,输入,IP,地址,点,RUN,Xmanager,使用方法,客户,端配置,Putty,使用文本界面方式,VNC,和,Xmanager,可使用文本或是,图形界面,VNC,:,在使用,远程,图形界面操作时无法使用,TAB,键补全命令,,关闭,软件不会结束当前会话,Xmanager,在使用远程图形界面操作时,可以,使用,TAB,键运行命令的补全,操作,,关闭软件会结束当前会话,根据使用习惯选择不同的远程登录工具,Putty,、,VNC,与,Xmanager,的异同,PBS,作业调度系统,机群结构的松散性(单一系统映象),节点类型的差别(,CPU,类型、内存大小、数量等),用户不同类型的作业(串行,/,并行,各类应用软件),用户可以使用资源的限制,机群使用中存在的问题,单一系统映象,机群松散的结构的整合,系统资源整合,异构系统的整合,多用户的管理,用户提交的任务的统一安排,避免冲突,用户权限的管理,非授权用户的控制,作业调度系统的功能,资源管理器:,管理集群的硬件资源及认证信息等,队列管理器:,管理当前所有已提交但还未完成的作业,调度器:,为作业分配资源,作业调度系统的组成,作业调度系统的结构,服务器,:pbs_server,调度器,:pbs_sched,执行器,:pbs_mom,命令行,:,用户脚本,管理命令等,PBS,的组成,准备,:编写描述改作业的脚本,包括作业名,需要的资源等。
提交,:使用,qsub,命令将该作业提交给,PBS,服务器,排队,:服务器将该任务排入适当的队列,调度,:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度执行,:当条件满足时,作业被发给相应的执行服务器执行程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户查询和调整,:当作业在运行时,用户可以使用,qstat,进行状态查询用户发现作业提交错误时,可以使用,qdel,删除正在运行的作业查看结果,:使用文本编辑软件,vi,或者系统命令,cat,less,等查看输出及错误信息显示PBS,的使用步骤,在,PBS,系统中,用户使用,qsub,命令提交用户程序用户运行程序的命令及,PBS,环境变量设置组成,PBS,作业脚本,作业脚本使用如下格式提交到,PBS,系统运行:,PBS,的基本命令,qsub,qsub-N test.vasp-l nodes=4:ppn=2-q defaults,注释,以“,#”,开头,PBS,运行参数,以“,#PBS”,开头,SHELL,命令,PBS,作业脚本,#PBS-N vasp.Hg,#PBS-l nodes=4:ppn=4,#PBS-oe,#PBS-l walltime=05:00:00,#PBS-q high,echo This jobs is$PBS_JOBID$PBS_QUEUE,cd$PBS_O_WORKDIR,mpirun-np 16-machinefile$PBS_NODEFILE./vasp,qsub,运行参数,运 行 参 数,说 明,-a,向,PBS,系统指定作业运行的开始时间。
作业运行时间格式为:,CCYYMMDDhhmm.SS,-A,使用不同的用户来提交作业,缺省使用当前用户名,-o,-e,该参数指定标准错误输出的位置,缺省的情况下,,PBS,系统把标准输出和标准错误输出放在用户,qsub,命令提交作业的目录下标准错误输出:,.o,标准错误输出:,.e,路径使用如下格式标准:,:,-N,指定提交的作业名,-q,指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点名或者是目标节点上的队列如果目标队列是一个路由队列,那么服务器可能把作业路由到新的队列中如果该参数没有指定,命令,qsub,会把作业脚本提交到缺省的队列中l,该参数指定作业脚本申请的,PBS,系统资源列表申请资源列表使用如下格式:,=,资源名,=,,,.,例如作业希望申请在双路节点上申请,5,个,CPU,资源的情况,,则可以在脚本中如下:,#PBS l nodes=2:ppn=2+1:ppn=1,PBS,的环境变量,变 量 名,说 明,登陆,SHELL,继承来的变量,包括,$HOME,,,$LANG,,,$LOGNAME,,,$PATH,,,$MAIL,,,$SHELL,和,$TZ,PBS_O_HOST,qsub,提交的节点名称,$PBS_O_QUEUE,qsub,提交的作业的最初队列名称,$PBS_O_WORKDIR,qsub,提交的作业的绝对路径,$PBS_JOBID,作业被,PBS,系统指定的作业号,$PBS_JOBNAME,用户指定的作业名,可以在作业提交的时候用,qsub N,指定,或者在,PBS,脚本中加入,#PBS N,。
PBS_NODEFILE,PBS,系统指定的作业运行的节点名该变量在并行机和机群中使用当在,PBS,脚本中用,#PBS l nodes=2:ppn=2,指定程序运行的节点数时,可以使用,$PBS_NODEFILE,在脚本中引用,PBS,系统指定的作业运行的节点名比如:,#PBS l nodes=2:ppn=2,mpirun np 4 machinefile$PBS_NODEFILE,$PBS_QUEUE,PBS,脚本在执行时的队列名,PBS,作业脚本举例,#,这是一个串行作业脚本的例子,#PBS-N Loop.out,#PBS-l nodes=1:ppn=1,cd$HOME/test/,./a.out$HOME/result/a.result,#,这是一个并行作业脚本的例子,#PBS-N vasp.Hg,#PBS-l nodes=8:ppn=2,#PBS-q low,echo This jobs is$PBS_JOBID$PBS_QUEUE,cd,$PBS_O_WORKDIR,mpirun-np 16-machinefile,$PBS_NODEFILE,./vasp,一个复杂的,PBS,作业脚本,#!/bin/bash,#PBS-N jobname,#PBS-l nodes=4:ppn=2,cat echo$PBS_NODEFILE$HOME/$PBS_JOBID.nodes,for node in cat$HOME/$PBS_JOBID.nodes,do,rsh$node mkdir/tmp/$PBS_JOBID,rsh$node cp-rf$PBS_O_WORKDIR/*/tmp/$PBS_JOBID/,done,cd/tmp/$PBS_JOBID,mpirun-np 8-machinefile$PBS_NODEFILE$HOME/bin/vasp,cp-rf/tmp/$PBS_JOBID/*$PBS_O_WORKDIR/,for node in cat$HOME/$PBS_JOBID.nodes,do,rsh$node rm-rf/tmp/$PBS_JOBID,done,rm$HOME/$PBS_JOBID.nodes,查询作业运行,作业提交后,会生成一个作业号,如:,dawningnode1$qsub test.pbs,93.node1,查看集群作业运行状态:,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,作业状态说明:,E,:退出,Q,:排队,H,:挂起,R,:运行,C,:结束,查询作业运行,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,查询某个作业运行状态:,qstat 93.node1(,或者,qstat 93),显示作业运行在哪些节点上,:,qstat-n 93.node1,显示作业运行详细信息,:,qstat-f 93.node1,取消作业,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,qdel 93.node1,查看节点状态,dawningnode1$pbsnodes-a,node2,state=free,np=12,ntype=cluster,node3,state=job-executive,np=12,ntype=cluster,node4,state=down,np=12,ntype=cluster,pbsnodes,命令的主要参数,-a,列出所有结点及其属性,属性包括“,state”,和“,properties”,-o,将指定结点的状态标记为“,offline”,。
这将帮助管理员暂时停止某些结点的服务,-l,以行的方式列出被标记的结点的状态,如,-l free,,,-l offline,-c,清除结点列表中的“,offline”,或“,down”,状态设置,使结点可以被分配给作业,-r,清除指定结点的“,offline”,状态,查看节点状态,WRF-PBS,范例,#PBS N wrf,#PBS -l nodes=4:ppn=8,#PBS -j,oe,cd$PBS_O_WORKDIR;,NP=wc l$PBS_NODEFILE;,mpirun np$NP hostfile$PBS_NODEFILE,/public/software/WRF/WRFV3/run/wrf.exe,MM5-PBS,范例,#PBS N mm5,#PBS -l nodes=4:ppn=8,#PBS -j,oe,cd$PBS_O_WORKDIR;,NP=wc l$PBS_NODEFILE;,mpirun np$NP hostfile$PBS_NODEFILE,/,public/software/MM5/Run/mm5.mpp,Grapes-PBS,范例,#PBS N,grapes,#PBS -l nodes=4:ppn=8,#PBS -j,oe,cd$PBS_O_WORKDIR;,NP=wc l$PBS_NODEFILE;,mpirun np$NP hostfile$PBS_NODEFILE,/,public/software/grapes/run/grapes.exe,相关论坛,气象家园,http:/,。