文档详情

第2讲-并行计算机系统及其结构模型

方***
实名认证
店铺
2024-11-02
PPT
789KB
约36页
第2讲-并行计算机系统及其结构模型_第1页
1/36
第2讲-并行计算机系统及其结构模型_第2页
2/36
第2讲-并行计算机系统及其结构模型_第3页
3/36

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,计算机学院计算机科学与技术系,主讲:陈 蕾 博士,/,副教授,E-mail:,第二讲 并行计算机系统及其结构模型,2,并行计算的研究内容,Issues in Parallel Computing,并行计算的研究内容广泛,包括并行计算机系统结构、并行算法设计、并行编程环境等,具体表现在下面几个方面:,(,1,)并行计算机的设计,Design of Parallel Computers,包括并行计算机的结构设计、互联拓扑、网络通信等。

设计并行计算机重要的一点要考虑处理机数目的按比例增长(即可扩展性)及支持快速通信及处理机间的数据共享等3,(2),有效算法的设计,Design of Efficient Algorithms,如果没有有效的并行算法,并行计算机无法使用,而并行算法的设计完全不同于串行算法的设计,不同的并行计算机的算法设计不同,只有将不同的并行计算机与不同的实际问题相结合,才能设计出有效的并行算法主要研究内容包括并行计算模型、并行算法的一般设计方法、基本设计技术和一般设计过程,并讨论一些数值并行算法与非数值并行算法的设计4,(3),评价并行算法的方法,Methods for Evaluating Parallel Algorithms,对于给定的并行计算机及运行在上面的并行算法,需要评价运行性能性能分析需解决的问题:如何利用基于并行计算机及其相适应的并行算法去快速地解决问题,及如何有效地利用各个处理器研究内容包括结合机器与算法,提出相应的性能评测指标,为设计高效的并行算法提供依据5,(4),并行计算机语言,Parallel Computing Language,与传统的机器语言不同,并行计算机语言依赖于并行计算机,并行计算机语言必须简洁,编程容易,可以有效地实现,目前的语言有:,PVM,(,Parallel Virtual Machine,)、,MPI(Message Passing Interface),、,HPF(High Performance Fortran),等,而且新的编程语言与编程模式正在不断地出现。

6,(5),并行编程环境与工具,Parallel Programming Environments and Tools,为了使编程容易,必须开发综合的编程环境与工具,且能达到两个目的:并行计算机的底层结构对用户透明;为用户提供设计与开发程序所需要的调试器与模拟器等工具,7,(6),并行程序的可移植性,Portable Parallel Programs,可移植性为并行程序设计的主要问题,要求在一台并行机上开发的程序不加修改或进行少量修改即可在另一台计算机上运行这一点为目前受到了广泛关注的重要课题8,(7),并行计算机的自动编程,Automatic Programming of Parallel Computers,可否设计一个并行化编译器,使用户的串行程序通过并行化编译器编译,直接可在并行机上运行到目前为此,这种编译器还不存在,而仅有一些半自动并行化编译器9,并行计算机分类,对并行计算机的分类有多种方法,其中最著名的是,1966,年由,M.J.Flynn,提出的分类法,称为,Flynn,分类法Flynn,分类法是从计算机的运行机制进行分类的首先作如下定义:,指令流(,instruction stream,):机器执行的指令序列;数据流(,data stream,):由指令流调用的数据序列,包括输入数据和中间结果。

10,Flynn,根据指令流和数据流的不同组织方式,把计算机系统的结构分为以下四类:(,1,),单指令流单数据流,(,Single Instruction stream Single Data stream,SISD,);(,2,),单指令流多数据流,(,Single Instruction stream Multiple Data stream,SIMD,);(,3,),多指令流单数据流,(,Multiple Instruction stream Single Data stream,MISD,);(,4,),多指令流多数据流,(,Multiple Instruction stream Multiple Data stream,MIMD,)SISD,就是普通的顺序处理的串行机SIMD,和,MIMD,是典型的并行计算机MISD,在实际中代表何种计算机,也存在不同的看法,甚至有学者认为根本不存在,MISD,11,单指令流多数据流机,SIMD,在一台,SIMD,计算机中,有一个,控制部件,(又称为控制单元,,control unit,)和许多,处理单元,(,processing unit,)。

大量的处理单元通常构成阵列,因此,SIMD,计算机有时也称为,阵列处理机,所有的处理单元在控制部件的统一控制下工作控制部件向所有的处理单元广播同一条指令,所有的处理单元同时执行这条指令,但是每个处理单元操作的数据不同控制部件可以有选择地屏蔽掉一些处理单元,被屏蔽掉的处理单元不执行控制部件广播的指令12,SIMD,计算机其结构如下图所示,其中,PE,表示处理单元,,P,表示处理器,,M,表示存储器,SIMD,中通常包含大量处理单元,PE,,而控制部件只有一个控制部件广播一条指令,所有的处理单元同时执行这条指令,但不同的处理单元操作的数据可能不同13,典型的,SIMD,计算机,-MasPar MP-1,可有,1024,,,4096,,,,,16384,个处理器在,16k,个处理器,,32,位整数运算,,16kB,局部存储器模块的配置下,,1.5GFlops.,单指令流多数据流机,SIMD,14,多指令流多数据流机,MIMD,在,MIMD,计算机中没有统一的控制部件在,MIMD,中,各处理器可以独立地执行不同的指令实际上,在,SIMD,机中,各处理单元执行的是同一个程序,而在,MIMD,机上,各处理器可以独立执行不同的程序。

在,MIMD,中,每个处理器都有控制部件,各处理器通过互连网络进行通信MIMD,结构比,SIMD,结构更加灵活SIMD,计算机通常要求实际问题包含大量的对不同数据的相同运算(例如向量运算和矩阵运算)才能发挥其优势而,MIMD,计算机则无此要求,它可以适应更多的并行算法,因此可以更加充分地开掘实际问题的并行性SIMD,所使用的,CPU,通常是专门设计的,而,MIMD,可以使用通用,CPU,15,多指令流多数据流机,MIMD,多指令流多数据流机,MIMD,一般可以分为,5,类:,1,、并行向量处理机,PVP,(,Parallel Vector Processor,),2,、对称多处理机,SMP,(,Symmetric Multiprocessor,),3,、大规模并行处理机,MPP,(,Massively Parallel Processor,),4,、工作站机群,COW,(,Cluster Of Workstations,,也称为,Network Of Workstations,,,NOW,),5,、分布式共享存储多处理机,DSM,(,Distributed Shared Memory,)。

16,并行向量处理机,PVP,在并行向量处理机中有少量,专门定制的向量处理器,每个向量处理器有很高的处理能力并行向量处理机通过向量处理和多个向量处理器并行处理两条途径来提高处理能力Cray C-90,、,Cray T-90,、,NEC SX-4,和我国的,银河,1,号,都是,PVP,PVP,通常使用定制的高带宽网络将向量处理器连向共享存储器模块存储器可以以很高的速度向处理器提供数据例如,在,Cray T-90,中,共享存储器能以,14GB/s,的速率将数据提供给一个处理器这种机器通常不使用高速缓存,而是使用大量的向量寄存器和指令缓冲器17,并行向量处理机其系统结构如下图所示图中,VP,表示,向量处理器,,SM,表示共享存储器18,对称多处理机,SMP,对称多处理机的最大特点是其中的各处理器完全平等,无主从之分所有的处理器都可以访问任何存储单元和,I/O,设备存储器一般使用,共享存储器,,只有一个地址空间因为使用共享存储器,通信可用共享变量(读写同一内存单元)来实现这使得编程很容易对称多处理机(,Symmetric Multiprocessor,SMP,)结构在现今的并行服务器中普遍采用。

它是应用得最广泛的并行计算机,例如曙光,1,号、,HP9000/T600,、,IBM RS6000/R40,、,SGI Power Challenge XL,、,SUN Ultra Enterprise 6000,等采用商用微处理器,通常有片上和外置,Cache,,基于总线或交叉开关连接,集中式共享存储,19,SMP,的结构如下图所示P/C,表示处理器和高速缓存,,SM,表示共享存储器20,对称多处理机,SMP,优点,对称性,单地址空间,易编程,动态负载平衡,无需显式数据分配,高速缓存及其一致性,硬件维持一致性,低通信延迟,问题,所有的处理器都可以访问存储器和,I/O,设备,使得存储器和,I/O,设备的负载很大,容易成为系统的瓶颈,这限制了系统中处理器的数量可用性:总线、存储器、操作系统中有一个失效就会导致整个系统的崩溃,系统不够可靠和稳定不可扩放性:总线和交叉开关一旦做成就难以扩展21,大规模并行处理机(,MPP,),大规模并行处理机(,Massively Parallel Processor,MPP,)是指由几百或几千台处理机组成的大规模并行计算机系统Intel,和美国,Sandia,国家实验室,1997,年,6,月研制成功的,MPP,系统,ASCI Option Red,有,9216,个处理器。

MPP,系统中处理器数目巨大,整个系统规模庞大,许多硬件设备是专门设计制造的,开发起来比较困难,通常被视为国家综合实力的象征同时,,MPP,能够提供其它并行计算机不能达到的计算能力达到,3T,性能目标和解决重大挑战性课题都寄希望于,MPP,大规模并行处理机一般指规模非常大的并行计算机系统,含有成千上万个处理器它一般采用,分布式存储器,,存储器一般为处理器私有,各处理器之间用消息传递的方式通信大规模并行处理机的互连网络一般是专门设计定制的典型的,MPP,有,Intel Paragon,、,IBM SP2,以及,Option Red,、,曙光,1000,等22,处理节点采用商用微处理器,专门设计制造的高速互连网络,每个节点内有一个或多个处理器、高速缓存、一个本地存储器和本地互连网络,有的,MP。

下载提示
相关文档
正为您匹配相似的精品文档