您的位置: 专家智库 > >

谭庆

作品数:1 被引量:28H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇云计算
  • 1篇数据挖掘
  • 1篇分布式
  • 1篇并行分布式
  • 1篇大数据

机构

  • 1篇中国科学院
  • 1篇中国科学院大...

作者

  • 1篇庄福振
  • 1篇何清
  • 1篇曾立
  • 1篇谭庆
  • 1篇赵卫中

传媒

  • 1篇中国科学:信...

年份

  • 1篇2014
1 条 记 录,以下是 1-1
排序方式:
PDMiner:基于云计算的并行分布式数据挖掘工具平台被引量:28
2014年
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.
何清庄福振曾立赵卫中谭庆
关键词:云计算分布式数据挖掘大数据
共1页<1>
聚类工具0