随着E级计算的到来,HPC系统的节点数量可以达到十万以上。对于使用了通信密集型程序而言,全局的聚合通信很可能成为严峻的通信瓶颈,从而制约通信性能。阿贡国家实验室的研究人员对Mira/Cetus超算系统的MPI实际使用情况进行了追踪,涉及两年内运行的约十万作业,提供了实际生产环境中科学计算应用对MPI使用特点的观察与分析:1) 应用运行过程中花在MPI库中的执行时间要长于预期,相当多的应用超过一半的执行时间花在MPI中。2) MPI聚合通信的使用显著多于点到点操作,而少数的由点到点通信主导的应用则以结构化最近邻居通信模式为主,可由MPI邻居聚合通信取代。3) 多线程应用需求高于预期,约30%的应用依赖MPI的多线程支持。4) 虽然小消息(不超过256字节)归约操作是利用最多的MPI通信,有将近20%的作业利用到大消息(超过512KB)归约。可见,聚合通信是今后MPI优化的重点。
网格质量判别可用于优化航空航天工程应用领域中数值计算的准确性问题,是高质量网格生成技术的重要技术手段,也是计算流体力学(CFD)研究的难点。目前网格质量的判别优化过程无法摆脱人工参与,已知的商业网格软件和网格生成技术都不能自动地筛选高质量的计算网格,这成为了制约网格自动化处理流程发展的瓶颈。本课题组拟使用深度学习方法,以实现智能化、自动化网格质量判别为目标,以构建网格质量数据库,训练对网格质量进行判断识别的深度学习网络模型,开发网格质量智能检测模块等关键步骤为主线,研究基于人工智能的网格质量检测及网格优化调整新方法。项目研究工作能为国家数值风洞网格软件的自动化检测功能提供技术支撑,对提高网格质量判别效率,缩短网格生成周期,完善全自动网格生成、检测、调优的迭代闭环有重要应用价值。
基于稠密线性系统开源软件SCALAPACK开发了异构融合HU-SCALAPACK,本算法库提供异构计算接口,支持GPU、MIC、MATRIX2000等加速卡。
YH-DIAG是基于Hubbard模型的大尺寸量子多体系统并行精确对角化计算软件,由国防科技大学的李彪负责研发。YH-DIAG的目的是为了解决增加量子多体的系统尺寸时,随着所需的内存暴增,导致程序设计困难的问题。YH-DIAG仅从Hubbard-Hamiltonian矩阵表示自身出发,利用其稀疏性和对称性,提出了一种快速查找Hamiltonian矩阵非零元的算法,通过即时计算获取矩阵非零元素的策略来减少内存占用,提出了负载均衡的分布式Lanczos过程中矩阵向量乘法的并行化方案。截止到目前,YH-DIAG可以并行扩展到36格点730-billion-dimensional 一维Hamiltonian矩阵精确对角化求解,在资源允许的条件下此计算尺寸还可以增加。YH-DIAG软件采用Fortran77+MPI编程实现,支持双精度浮点运算。
在许多重要领域工程实现中将问题最终描述为一组偏微分方程并进行求解。其中核心函数是稀疏矩阵与稀疏矩阵相乘,在共轭梯度法中稀疏矩阵向量乘法是开销最大的操作,可占总体运行时间的九成,因此SpMV的性能直接决定了这些求解器的表现。随着问题规模和求解精度的提升,稀疏问题在高性能计算系统上的求解对计算软硬件也提出了更高的要求。单指令多数据流(SIMD)技术作为Intel架构处理器的一种重要性能扩展,被广泛应用于科学计算应用的优化加速,但其无法在这些稀疏矩阵格式上直接使用。对此,我们提出了可变维度稀疏矩阵向量化一维存储格式和块状存储格式的新稀疏矩阵存储格式,将相邻的非零元素组合成可变大小的段和块,以确保可以使用SIMD向量单位计算SpMV。新格式分别在FT2000,Intel Xeon E5和Intel Silver三个平台上获得了良好的性能提升,并且与其他存储格式相比,它具有更好的存储效率