国家自然科学基金(60833004) 作品数:31 被引量:61 H指数:6 相关作者: 顾乃杰 任开新 刘燕君 何颂颂 郭利财 更多>> 相关机构: 中国科学技术大学 安徽省计算与通讯软件重点实验室 中国科学院 更多>> 发文基金: 国家自然科学基金 国家科技重大专项 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 理学 更多>>
一种多倍数据供应的编译优化方法 2011年 数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%. 彭飞 顾乃杰 高翔 孙明明关键词:自动向量化 龙芯3A 一种仿生的面向可重构多细胞阵列的分布式定序方法 2011年 提出一种仿生的面向多细胞阵列的分布式定序方法.该方法是基于生物学上的图式形成理论,通过催化剂-抑制剂模型在多细胞阵列中建立浓度梯度,并在此基础上进行定序.该方法具有如下的特点:跟现有的多细胞阵列维序方法相比,它采用主动的维序方式;跟传统的分布式定序方法相比,它不需要初始特征值就能实现定序和维序.故障注入实验表明,该定序方法较现有的方法具有更强的鲁棒性,在细胞出错的情况下能够重新建立浓度梯度和重新定序.此外,我们在Xilinx公司的型号为Virtex-6 XC6VLX760的FPGA芯片上实现了5x5多细胞阵列,对浓度梯度建立和重建时间及硬件资源开销进行了评估. 吕启 徐佳庆 窦勇 冯雪关键词:仿生 一种近似无阻塞的置换三级Clos网 2010年 提出设计一种具有小阻塞概率、低硬件代价的的三级Clos网的方法.通过对阻塞概率与硬件代价的折衷,给出当端口利用率不是特别大时,具有小阻塞、低代价的三级Clos网模型,并且对端口利用率大的情况作了分析讨论.最后通过对于不同网络规模的比较可发现,对于所搭建的网络,其硬件代价比相应的严格无阻塞网络降低将近一半,而阻塞概率却非常小. 于璠 任开新 徐志广 刘燕君GPU上的矩阵乘法的设计与实现 被引量:7 2011年 矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。 梁娟娟 任开新 郭利财 刘燕君关键词:矩阵乘法 GPU CUDA 基于混合存储结构的卷级连续数据保护系统 被引量:2 2010年 针对卷级连续数据保护历史任意时间点视图查看和恢复的瓶颈难题,提出了使用NVRAM进行临时数据组织、SSD硬盘存储增量数据和HDD硬盘存储历史镜像数据的混合存储结构的解决方案。在增量数据写入时,引入了段大块写入和延迟写策略,克服了固态硬盘随机写性能速度低的不足。在历史镜像数据恢复时,充分利用固态硬盘随机读性能的优势,实现了历史镜像视图的快速查看和读取。给出了性能评价和系统实现,评估了混合存储结构的有效性。实验表明:该方法较传统的单一存储结构,在恢复速度上平均提高近50倍。 生拥宏 刘瑞 汪东升 鞠大鹏关键词:连续数据保护 Java虚拟机中的动态锁cache优化 2013年 Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%. 林传文 顾乃杰 蔡嵩松关键词:JAVA虚拟机 CACHE Cholesky分解细粒度并行算法 被引量:7 2010年 本文提出了一种Cholesky分解细粒度流水线并行算法,该算法可以处理任意规模的数据,可以充分开发FP-GA加速器提供的细粒度并行。实验表明,该算法具有很好的可扩展性,在Xilinx XC5 VLX330 FPGA上能够集成36个处理单元(PE),当矩阵的阶为16384、运行频率为200MHz时性能达到14.3GFLOPS。 邬贵明 窦勇 王淼关键词:CHOLESKY分解 细粒度并行 FPGA 基于龙芯3B的循环规约算法向量化研究 2013年 研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。 吴淅 黄章进 顾乃杰关键词:向量化 泊松方程 离散化 面向龙芯3A体系结构的BLAS库优化 被引量:8 2012年 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多. 何颂颂 顾乃杰 朱海涛 刘燕君关键词:矩阵乘法 BLAS LINPACK 龙芯3A处理器上FFT的高效实现 被引量:6 2012年 FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右. 郭利财 刘燕君关键词:龙芯3A FFT