文档详情

南开大学2021年9月《并行程序设计》作业考核试题及答案参考1

住在山****ck
实名认证
店铺
DOCX
11.32KB
约8页
文档ID:79368269
南开大学2021年9月《并行程序设计》作业考核试题及答案参考1_第1页
1/8

南开大学2021年9月《并行程序设计》作业考核试题及答案参考1. 采用MPI主从模型解决矩阵每行排序问题,主进程不断向每个从进程发送任务、接收结果,则它从从进程接收结果时,以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案:D2. 每个AVX寄存器宽度为____位每个AVX寄存器宽度为____位A.32B.64C.128D.256参考答案:D3. 在使用条件变量之后必须对其进行____在使用条件变量之后必须对其进行____A.初始化B.加锁C.解锁D.销毁参考答案:D4. 循环需满足特定条件才能进行OpenMP并行化,下列哪个条件是错误的?( )A.循环变量应为带符号整数B.终止检测必须是与循环不变量的比较C.循环变量每步递增/递减一个循环不变量D.循环体无进/出控制流参考答案:B5. SSE intrinsics_mm_store_sd命令的功能是( )A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案:C6. 全球500强超算在操作系统上越来越体现出_____一家独大的趋势。

A.UnixB.WindowsC.LinuxD.ios参考答案:C7. 采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第____层循环进行循环展开然后向量化采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第____层循环进行循环展开然后向量化A.3B.4C.5D.6参考答案:D8. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是____采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是____A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案:B9. 下面哪个问题相对而言更不适合进行数据并行____下面哪个问题相对而言更不适合进行数据并行____A.求和B.排序C.向量加法D.矩阵乘法参考答案:B10. 编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开A.2B.4C.8D.16参考答案:B11. SSE intrinsics _mm_hadd_ps命令的功能是____。

SSE intrinsics _mm_hadd_ps命令的功能是____A.寄存器间单精度浮点数向量加法B.寄存器间双精度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案:C12. SIMD架构未见于_____中SIMD架构未见于_____中A.多媒体扩展B.图形和游戏处理器C.计算机集群D.协处理器参考答案:C13. 我国最早夺得全球超级计算机计算能力冠军的是( )A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案:B14. 对于多线程各自进行本地运算,然后由主线程汇总结果的模式,下面说法正确的是( )A.在同构核心上,线程运行速度一样,主线程无需等待,直接汇总结果即可B.线程运行速度可能不一致,必须采用同步保证主线程汇总正确结果C.太多本地运算,不能体现并行效果,不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案:B15. 采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_____前缀A.__global__B.__device__C.__shared__D.__private__参考答案:C16. float a[64]; for(i=0; iA.1B.2C.3D.4参考答案:B17. 为了充分利用CPU内的多条流水线,程序应满足____。

为了充分利用CPU内的多条流水线,程序应满足____A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案:A18. 采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加___前缀采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加___前缀A.__global__B.__device___C.__shared__D.__private__参考答案:C19. 加速比计算中串行时间应该取求解同一问题的哪个串行算法的时间_____A.任意一个串行算法B.作为并行算法基础的那个串行算法C.已知最优的串行算法D.所有串行算法的平均时间参考答案:C20. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法( )A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A21. SSE运算指令中未提供_____指令A.算术运算B.矩阵运算C.逻辑运算D.比较运算参考答案:B22. SSE指令移动单精度浮点数,不能实现____SSE指令移动单精度浮点数,不能实现____A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案:C23. SIMD并行化时遇到对齐问题,高效的处理方法是( )。

A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界,然后进行SIMD对齐访存参考答案:D24. 主线程要求从线程退出应采用____主线程要求从线程退出应采用____A.pthread_createB.pthread_exitC.pthread_quitD.pthread_cancel参考答案:D25. 一个SSE寄存器可容纳( )个短整型数A.2B.4C.8D.16参考答案:C26. 每个SSE寄存器宽度为____位每个SSE寄存器宽度为____位A.32B.64C.128D.256参考答案:C27. 采用多核、众核技术提升CPU性能,相对于单核的优势不包括_____A.架构设计更容易B.更易突破物理极限C.能更充分利用现有资源D.功耗优势明显参考答案:B28. OpenMP编译指示中说明私有变量是用____子句OpenMP编译指示中说明私有变量是用____子句A.privateB.sharedC.scheduleD.nowait参考答案:A29. pthread_rwlock_wrlock是对读写锁进行____操作pthread_rwlock_wrlock是对读写锁进行____操作。

A.加锁B.解锁C.加读琐D.加写锁参考答案:D30. 对矩阵每行排序的程序进行多线程并行化,对矩阵采用_____A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案:C。

下载提示
相关文档
正为您匹配相似的精品文档