公共文化服务平台

2025年3月16日星期日

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家自然科学基金(60833004): 作品数：31 被引量：61H指数：6; 相关作者：顾乃杰任开新刘燕君何颂颂郭利财更多>>; 相关机构：中国科学技术大学安徽省计算与通讯软件重点实验室中国科学院更多>>; 发文基金：国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术电子电信理学更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

31篇中文期刊文章

领域

29篇自动化与计算...
2篇电子电信
1篇理学

主题

6篇龙芯
4篇龙芯3A
3篇向量
3篇向量化
2篇虚拟机
2篇容错
2篇自动向量化
2篇路由
2篇路由算法
2篇矩阵
2篇矩阵乘
2篇矩阵乘法
2篇仿生
2篇BLAS
2篇FFT
2篇JAVA虚拟...
2篇并行化
2篇乘法
2篇处理器
2篇PLACEM...

机构

21篇中国科学技术...
18篇安徽省计算与...
6篇中国科学院
3篇国防科学技术...
3篇清华大学
2篇安徽大学
2篇沈阳军区总医...
1篇东北大学
1篇中国矿业大学...

作者

15篇顾乃杰
8篇任开新
5篇刘燕君
4篇何颂颂
3篇彭飞
3篇窦勇
3篇郭利财
3篇黄章进
2篇吕启
2篇张颖楠
2篇汪东升
2篇鞠大鹏
2篇徐佳庆
2篇冯雪
2篇林传文
2篇梁娟娟
2篇高翔
2篇杨阳朝
2篇于璠
2篇徐志广

传媒

15篇小型微型计算...
3篇计算机工程
2篇清华大学学报...
2篇计算机系统应...
2篇Tsingh...
1篇中国科学技术...
1篇计算机工程与...
1篇计算机应用与...
1篇沈阳工业大学...
1篇微电子学
1篇计算机科学
1篇Journa...

年份

1篇2015
2篇2014
9篇2013
5篇2012
8篇2011
5篇2010
1篇2009

共 31 条记录，以下是 1-10

全选清除导出

排序方式：

一种多倍数据供应的编译优化方法: 2011年; 数据的快速及时供应对访存密集型程序的性能有着直接的影响.提出一种多倍数据供应MDS(Multiple Data Supply)的编译优化方法,在不增加处理器设计复杂度的前提下,利用现有处理器的高带宽,一次对内存进行多个数据的读写,减少访存次数,提高应用程序效率.在编译优化阶段,利用自动向量化技术,生成向量形式的树结构,增加一条新的扩展路径来处理从向量化的树结构到底层结构的扩展.针对向量化后树结构的多样性问题,设计新的优化遍以及RAC(Register Assignment Chain)替换算法进行专门处理.在龙芯3A处理器平台上,对SPEC-CPU2000的测试,CINT程序平均性能提升11.6%,CFP程序平均性能提升14.4%.; 彭飞顾乃杰高翔孙明明; 关键词：自动向量化龙芯3A

一种仿生的面向可重构多细胞阵列的分布式定序方法: 2011年; 提出一种仿生的面向多细胞阵列的分布式定序方法.该方法是基于生物学上的图式形成理论,通过催化剂-抑制剂模型在多细胞阵列中建立浓度梯度,并在此基础上进行定序.该方法具有如下的特点:跟现有的多细胞阵列维序方法相比,它采用主动的维序方式;跟传统的分布式定序方法相比,它不需要初始特征值就能实现定序和维序.故障注入实验表明,该定序方法较现有的方法具有更强的鲁棒性,在细胞出错的情况下能够重新建立浓度梯度和重新定序.此外,我们在Xilinx公司的型号为Virtex-6 XC6VLX760的FPGA芯片上实现了5x5多细胞阵列,对浓度梯度建立和重建时间及硬件资源开销进行了评估.; 吕启徐佳庆窦勇冯雪; 关键词：仿生

一种近似无阻塞的置换三级Clos网: 2010年; 提出设计一种具有小阻塞概率、低硬件代价的的三级Clos网的方法.通过对阻塞概率与硬件代价的折衷,给出当端口利用率不是特别大时,具有小阻塞、低代价的三级Clos网模型,并且对端口利用率大的情况作了分析讨论.最后通过对于不同网络规模的比较可发现,对于所搭建的网络,其硬件代价比相应的严格无阻塞网络降低将近一半,而阻塞概率却非常小.; 于璠任开新徐志广刘燕君

GPU上的矩阵乘法的设计与实现被引量：7: 2011年; 矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。; 梁娟娟任开新郭利财刘燕君; 关键词：矩阵乘法 GPU CUDA

基于混合存储结构的卷级连续数据保护系统被引量：2: 2010年; 针对卷级连续数据保护历史任意时间点视图查看和恢复的瓶颈难题,提出了使用NVRAM进行临时数据组织、SSD硬盘存储增量数据和HDD硬盘存储历史镜像数据的混合存储结构的解决方案。在增量数据写入时,引入了段大块写入和延迟写策略,克服了固态硬盘随机写性能速度低的不足。在历史镜像数据恢复时,充分利用固态硬盘随机读性能的优势,实现了历史镜像视图的快速查看和读取。给出了性能评价和系统实现,评估了混合存储结构的有效性。实验表明:该方法较传统的单一存储结构,在恢复速度上平均提高近50倍。; 生拥宏刘瑞汪东升鞠大鹏; 关键词：连续数据保护

Java虚拟机中的动态锁cache优化: 2013年; Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%.; 林传文顾乃杰蔡嵩松; 关键词：JAVA虚拟机 CACHE

Cholesky分解细粒度并行算法被引量：7: 2010年; 本文提出了一种Cholesky分解细粒度流水线并行算法,该算法可以处理任意规模的数据,可以充分开发FP-GA加速器提供的细粒度并行。实验表明,该算法具有很好的可扩展性,在Xilinx XC5 VLX330 FPGA上能够集成36个处理单元(PE),当矩阵的阶为16384、运行频率为200MHz时性能达到14.3GFLOPS。; 邬贵明窦勇王淼; 关键词：CHOLESKY分解细粒度并行 FPGA

基于龙芯3B的循环规约算法向量化研究: 2013年; 研究国产CPU龙芯3B的体系结构,分析三对角线性方程组求解中的循环规约算法,并结合算法特性,提出循环规约算法的优化方案。采用向量化级数,利用龙芯3B处理器提供的向量扩展指令对该算法在龙芯3B上进行实现和优化。实验结果表明,与非向量化算法相比,向量化算法的性能提升较大。; 吴淅黄章进顾乃杰; 关键词：向量化泊松方程离散化

面向龙芯3A体系结构的BLAS库优化被引量：8: 2012年; 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.; 何颂颂顾乃杰朱海涛刘燕君; 关键词：矩阵乘法 BLAS LINPACK

龙芯3A处理器上FFT的高效实现被引量：6: 2012年; FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.; 郭利财刘燕君; 关键词：龙芯3A FFT

全选清除导出

共4页<1 2 3 4>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张