在线留言 注册 登录
热门搜索:形考答案免费答案奥鹏答案

南开24秋学期(高起本:1809-2103、专升本/高起专:2103)《并行程序设计》在线作业【标准答案】

Time2024-12-30Hits浏览量: 62
有奥鹏院校所有作业、毕业论文,详情请咨询请添加QQ : 103092222或微信: xyzlfx100

24秋学期(高起本:1809-2103、专升本/高起专:2103)《并行程序设计》在线作业-00001

试卷总分:100  得分:100

一、单选题 (共 50 道试题,共 100 分)

1.SSE intrinsics _mm_load_pd命令的功能是____。

A.对齐向量读取单精度浮点数

B.未对齐向量读取单精度浮点数

C.对齐向量读取双精度浮点数

D.未对齐向量读取双精度浮点数


2.任务依赖图的平均并发度的定义是____。

A.顶点权重之和

B.顶点数

C.各层平均顶点数

D.顶点权重之和/关键路径长度


3.当前并行软件面临的主要挑战不包括____。

A.能耗

B.伸缩性

C.研发周期

D.可靠性


4.SSE寄存器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高),则执行C=blend(A, B, 0x05)后,C中元素为

A.A1 A2 B3 B4

B.B1 B2 A3 A4

C.A1 B2 A3 B4

D.B1 A2 B3 A4


5.两个矩阵相乘,当矩阵规模大于cache大小时,平凡算法的问题是____。

A.第一个矩阵访存时间局部性差

B.第一个矩阵访存空间局部性差

C.第二个矩阵访存时间局部性差

D.第二个矩阵访存空间局部性差


6.两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。

A.先将两个矩阵读入cache再进行乘法

B.先转置第一个矩阵再进行乘法

C.先转置第二个矩阵再进行乘法

D.以上皆错


7.两个矩阵相乘前将第二个矩阵转置,是使用利用数据访问的_____达到更高的cache命中率。

A.时间局部性

B.空间局部性

C.计算局部性

D.混合局部性


8.MPI程序中发送和接收消息的两个进程必须____。

A.在同一个网段中

B.连接在同一个路由器上

C.在同一个通信域中

D.以上皆错


9.SSE的blend指令的8位二进制整数参数被用做8个掩码imm8[0:7],若imm8[j]=0则表示___。

A.将第一个源寄存器的第j个元素放在目标寄存器位置0

B.将第二个源寄存器的第j个元素放在目标寄存器位置0

C.将第一个源寄存器的第j个元素放在目标寄存器位置j

D.将第二个源寄存器的第j个元素放在目标寄存器位置j


10.一个AVX寄存器最多存放____个整型数。

A.2

B.4

C.8

D.16


11.新一代GPU重点提供的新特性不包括____。

A.新型高速显存

B.GPU间直接高速互联

C.自动并行化

D.人工智能计算专门优化


12.SSE的blend指令的8位二进制整数参数被用做8个掩码imm8[0:7],若imm8[j]=1则表示___。

A.将第一个源寄存器的第j个元素放在目标寄存器位置1

B.将第二个源寄存器的第j个元素放在目标寄存器位置1

C.将第一个源寄存器的第j个元素放在目标寄存器位置j

D.将第二个源寄存器的第j个元素放在目标寄存器位置j


13.GPU相对于其他众核产品的优势不包括____。

A.平台普及

B.有CUDA这样易学的开发工具

C.性价比高

D.由英伟达公司一家把控


14.n个节点的二维mesh构造成本为____。

A.O(logn)

B.O(sqrt(n))

C.O(n)

D.O(nlogn)


15.为缓解存储和CPU之间的性能差距,常见的技术手段不包括____。

A.利用cache降低访存延迟

B.利用多线程隐藏访存延迟

C.利用预取隐藏访存延迟

D.采用大容量内存提高访问速度


16.OpenMP归约指令采用的是一种____算法。

A.分治

B.贪心

C.动态规划

D.排序


17.我们在小规模系统和小规模输入下测试了几个并行算法,应选择哪个应用在实际系统中?

A.选择性能测试并行时间最少者

B.选择性能测试加速比最大者

C.选择性能测试效率最高者

D.应结合可扩展性分析做出选择


18.记并行时间为T,串行时间为T',处理器数量为p,则额外开销应如何计算?

A.T'-T

B.T-T'

C.pT

D.pT-T'


19.C/C++语言存储二维数组采取____。

A.行主次序存储

B.列主次序存储

C.交错式存储

D.对角线存储


20.为了实现向量计算,SIMD架构还需提供____。

A.更大的内存容量

B.更快的内存传输

C.更宽的寄存器

D.更快的网络传输


21.OpenMP程序和Pthread程序中线程获得自身编号的方式分别是____。

A.两者均为创建线程时传递参数

B.两者均通过特定API

C.前者创建线程时传递参数,后者通过特定API

D.前者通过特定API,后者创建线程时传递参数


22.MPI收发各一条消息的API是_____。

A.MPI_Sendrecv

B.MPI_Send

C.MPI_Recv

D.MPI_Replace


23.MPI基本原语不包括____。

A.MPI_Barrier

B.MPI_Comm_rank

C.MPI_Comm_size

D.MPI_Init


24.全球500强超算在操作系统上越来越体现出____一家独大的趋势。

A.Unix

B.Windows

C.Linux

D.ios


25.关于OpenMP程序中的并行结构,以下说法正确的是____。

A.其结束时需程序员人为添加同步

B.其结束时OpenMP已默认添加隐式障碍

C.其结束时完全不需要同步

D.其结束时必须进行同步


26.SSE intrinsics _mm_store_ss命令的功能是____。

A.对齐向量存单精度浮点数

B.未对齐向量存双精度浮点数

C.对齐标量存单精度浮点数

D.未对齐标量存双精度浮点数


27.和一对多广播对应的组通信操作是____。

A.多对一收集

B.多对多收集

C.多对一归约

D.多对多归约


28.控制流语句进行SIMD并行化很困难的原因是控制流语句导致____。

A.连续数据执行不同指令

B.连续数据执行相同指令

C.同一数据执行不同指令

D.同一数据执行相同指令


29.通常忙等待方法的性能要比互斥量方法的性能____。

A.更高

B.更低

C.高低不确定

D.以上皆错


30.for (i=0; i<10; i++) A[i] = A[i]+1; 此循环____数据依赖。

A.存在

B.不存在

C.不确定

D.以上皆错


31.OpenMP的优点不包括____。

A.从头编写并行程序很自然

B.串行程序并行化简单

C.不必关心低层细节

D.可移植、可扩展


32.SSE指令移动单精度浮点数,不能实现____。

A.将64位数据移动到SSE寄存器高位

B.将64位数据移动到SSE寄存器低位

C.将32位数据移动到SSE寄存器指定位置

D.在两个SSE寄存器高/低64位间移动


33.pthread_join的第二个参数的作用是____。

A.设置指定线程属性

B.获取指定线程属性

C.向指定线程传递参数

D.获取指定线程函数返回结果


34.在使用互斥量之前必须对其进行____。

A.初始化

B.加锁

C.解锁

D.销毁


35.MPI中表示虚拟进程的____。

A.MPI_ANY_SOURCE

B.MPI_PROC_NULL

C.MPI_PROC_ANY

D.MPI_ANY_TAG


36.对单精度浮点计算,MMX最高实现____路并行。

A.2

B.4

C.8

D.16


37.动态线程编程模式的优点是____。

A.线程创建开销低

B.线程管理开销低

C.线程终止开销低

D.系统资源利用率高


38.一个函数是“线程安全的”,其含义是该函数____。

A.多线程执行能抵御网络攻击

B.多线程执行能保护用户隐私数据

C.多线程执行结果也是正确的

D.以上皆错


39.对矩阵每行排序的程序进行多线程并行化,对矩阵采用____。

A.简单均匀块划分即可保证负载均衡

B.循环划分才能实现负载均衡

C.动态划分才能实现负载均衡

D.随机划分才能实现负载均衡


40.四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种____任务划分方法。

A.数据并行

B.任务并行

C.搜索并行

D.预测并行


41.1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1; 这两个程序片段哪个进行向量化效率更高?

A.1)

B.2)

C.不确定

D.以上皆错


42.多对多广播/归约高效算法基于____。

A.递归思想

B.流水线思想

C.分治思想

D.贪心思想


43.SIMD架构中,_____。

A.唯一控制单元控制所有计算单元

B.每个计算单元独有控制单元

C.一组计算单元共享一个控制单元

D.以上皆错


44.任务依赖图中权重之和最长的路径称为____。

A.最大任务

B.关键路径

C.平均并发度

D.最短路径


45.链表数据结构的查找、插入、删除等操作,既有对链表的读也有对链表的写,对此,采用互斥量加解锁整个链表的同步机制相比加解锁每个节点的方式的缺点是____。

A.粒度太粗,节点读写一致性不能保证

B.粒度太粗,线程不必要的等待

C.粒度太细,加解锁开销大

D.粒度太细,总体读写一致性不能保证


46.OpenMP编译指示中说明共享变量是用____子句。

A.private

B.shared

C.schedule

D.nowait


47.CUDA寄存器是由____。

A.Grid中所有线程共享

B.一个Block中所有线程共享

C.一个Warp中所有线程共享

D.每个线程独享


48.Neon是____平台的SIMD架构。

A.x86

B.POWER

C.SPARC

D.ARM


49.利用cache line一次读取多个数据字的机制优化程序访存性能,其机理是____。

A.降低了访存延迟

B.隐藏了访存延迟

C.利用了cache空间局部性

D.利用了cache时间局部性


50.SSE intrinsics _mm_store_ps命令的功能是____。

A.对齐向量存单精度浮点数

B.未对齐向量存单精度浮点数

C.对齐标量存单精度浮点数

D.未对齐标量存单精度浮点数


吐血推荐

奥鹏,国开形考,广开,电大在线,各省平台,新疆一体化,各类成人教育等学习。详情请咨询QQ : 103092222或微信: xyzlfx100

添加微信查看答案

南开24秋学期(高起本:1809-2103、专升本/高起专:2103)《并行程序设计》在线作业【标准答案】_学优资料分享网

添加微信二维码,了解更多学习技巧,平 台作业、毕业论文完成时间友情提醒。。

合作洽谈

诚信为本,合作共赢

欢迎各大学习中心前来治谈;有意请联系我们

推荐作业

留言板
captcha
感谢留言
我们会尽快与您联系
关闭