国家自然科学基金(61003260) 作品数:6 被引量:39 H指数:3 相关作者: 王树鹏 李超 陈明 云晓春 吴广君 更多>> 相关机构: 中国科学院 国家互联网应急中心 北京邮电大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于纠删码的数据消冗存储系统可靠性增强研究 针对如何使用纠删码技术增强数据消冗存储系统可靠性的问题进行了研究,首先研究了纠删编码中关键参数对存储可靠性的影响,通过数学推导证明了使用纠删码技术并不总是会比冗余复制技术更有效的增强存储可靠性,同时分析了使用纠删码技术增... 彭成 王树鹏 贾志凯关键词:重复数据删除 纠删码 文献传递 一种基于流水线的重复数据删除系统读性能优化方法 被引量:2 2013年 重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统中读取流程和性能瓶颈进行了量化分析,提出了一种基于流水线的数据读取模型,然后通过并行计算机制对模型进行了进一步的优化.基于这一模型设计实现了实验系统,通过实验证明:对于网络安全监测日志文本数据和虚拟机镜像文件,应用此模型后,重复数据删除系统读速度的提高可达5倍以上;基于流水线的数据读取模型适用性强,对提高不同消冗率的数据读速度均有明显作用. 李超 王树鹏 云晓春 周晓阳 陈明关键词:重复数据删除 流水线 基于Haar小波的同源图像消冗技术研究 被引量:1 2012年 针对分辨率不同、品质不同的同源①图像,提出一种基于Haar小波的图像消冗技术.该技术在Haar小波分解提取图像特征的基础上,利用图像特征向量的1-范数建立B+树索引,在B+树中通过范围查询计算不同图像的曼哈顿距离D1.同时为保证消冗的精确性,当D1≤T时,提取图像特征向量的部分数据构建集合,通过阈值t和不同集合中相同元素的个数v来判断是否进行消冗.实验表明,当t=5,T≤7000,消冗率②达到85%,消冗精度③为100%. 陈明 李超 王树鹏 吴广君 云晓春关键词:高维索引 B+树 一种并行层次化的重复数据删除技术 被引量:3 2011年 重复数据删除技术对缩减数据占用空间、提高存储设备利用率、消减存储成本具有重要的意义,该技术逐渐发展为存储领域的一项关键技术.分析比较了几项主流的重复数据删除技术的优缺点,并提出一种并行层次化的重复数据删除算法PHD(parallel-hierarchical deduplication),通过由粗粒度到细粒度的层次化数据消冗来提高数据去重率,并在此基础上引入并行处理以充分利用多核计算机资源解决重复数据删除速率低的问题.实验结果表明,该策略在保证重复数据删除率的同时,有效地提高了重复数据删除速率. 贾志凯 王树鹏 陈光达 彭成关键词:重复数据删除 层次化 基于二维云模型过滤的重复图像发现 针对传统的重复图像发现技术无法保证图像检索的扩展性和精确性,提出了一种基于二维云模型过滤的重复图像发现方法.该方法在词袋模型的基础上,首先将汉明嵌入精炼后的匹配描述子映射为二维空间中的点,然后通过云模型计算二维点分布的不... 陈明 王树鹏 云晓春 吴广君关键词:不确定性 云模型 文献传递 基于二级索引的重复数据删除系统中性能相关参数的量化分析与研究 被引量:3 2012年 随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大小等一些性能相关的参数进行了分析研究,设计了相关实验,对这些参数与读写性能的关系进行了量化描述,对本类模型在实际环境中的应用有很好的指导意义,同时为下一步性能优化工作提供了重要的数据基础. 李超 周晓阳 王树鹏 云晓春关键词:重复数据删除 一种并行层次化的重复数据删除技术 重复数据删除技术对缩减数据占用空间、提高存储设备利用率、消减存储成本具有重要的意义,该技术逐渐发展为存储领域的一项关键技术.分析比较了几项主流的重复数据删除技术的优缺点,并提出一种并行层次化的重复数据删除算法PHD(pa... 贾志凯 王树鹏 陈光达 彭成关键词:重复数据删除 层次化 文献传递 海量结构化数据存储检索系统 被引量:31 2012年 Big Data是近年在云计算领域中出现的一种新型数据,传统关系型数据库系统在数据存储规模、检索效率等方面不再适用.目前的分布式No-SQL数据库可以提供分布式数据存储环境,但是无法支持多列查询.设计并实现分布式海量结构化数据存储检索系统(MDSS).系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率.在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能.实验结果表明,提出的分布式结构化数据管理技术和查询任务分解机制可以显著提高分布式条件下大数据集的查询效率,适合应用在日志类数据、流记录数据等海量结构化数据的存储应用场合. 吴广君 王树鹏 陈明 李超关键词:大数据 HADOOP 数据检索 海量数据存储 基于纠删码的数据消冗存储系统可靠性增强研究 被引量:3 2011年 针对如何使用纠删码技术增强数据消冗存储系统可靠性的问题进行了研究,首先研究了纠删编码中关键参数对存储可靠性的影响,通过数学推导证明了使用纠删码技术并不总是会比冗余复制技术更有效的增强存储可靠性,同时分析了使用纠删码技术增强存储可靠性的条件,并结合数据消冗存储系统的特点给出一种纠删编码关键参数的选取算法,经过实验证明,该算法能够利用更少的存储空间获得比冗余复制技术更高的存储可靠性. 彭成 王树鹏 贾志凯关键词:重复数据删除 纠删码