您的位置: 专家智库
>
资助详情 >
国家教育部博士点基金(20070151009)
国家教育部博士点基金(20070151009) 作品数:12 被引量:65 H指数:5 相关作者: 鲁明羽 唐焕玲 林正奎 邬俊 魏善岭 更多>> 相关机构: 大连海事大学 烟台职业学院 大连交通大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
基于不对称贝叶斯学习的图像检索相关反馈算法研究 被引量:5 2009年 基于贝叶斯(Bayesian)理论的相关反馈技术是可有效提高图像检索性能的重要手段之一.然而,当前大多数的Bayesian反馈算法普遍受到小样本问题和训练样本不对称问题的制约.本文提出一种新的相关反馈算法,该算法将查询点移动(query point movement,QPM)技术嵌入Bayesian框架中,并采用不对称的学习策略处理正、负反馈信息,故而称之为不对称Bayesian学习(asymmetry Bayesianlearning,ABL).对于正例样本,该算法同时考虑用户提供的正、负反馈信息,并借助QPM技术估计相关语义类图像的概率分布.对于负例样本,采用一种半监督学习机制以应对负例样本稀缺问题.首先,通过随机采样从数据库中选取一组无标记图像,然后,利用QPM技术对其进行数据审计.最后,将审计后的无标记图像作为额外的负例样本,并与用户标记的负反馈信息一起用于估计不相关语义类图像的概率分布.仿真实验及对比结果表明,不对称Bayesian学习策略可显著提高相关反馈的效率,且本文算法的检索性能明显优于当前其它的相关反馈算法. 邬俊 林正奎 鲁明羽 黄会关键词:图像检索 贝叶斯 基于差异性评估对Co-training文本分类算法的改进 被引量:4 2008年 Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法. 唐焕玲 林正奎 鲁明羽关键词:CO-TRAINING 基于投票信息熵的AdaBoost改进算法 被引量:5 2010年 针对AdaBoost算法不能有效提升NB(Naive Bayesian)的分类性能,提出一种改进的样本权重维护策略.权重的调整不仅依据样本是否分错,还需考虑前几轮的多个基分类器对它的投票分歧.基分类器的信任度不但与错误率有关,还与基分类器间的差异性有关.这样可以提高基分类器的正确性,增加基分类器的差异性.实验结果表明,改进的BoostVE-NB算法能有效地提升NB文本分类性能. 唐焕玲 鲁明羽 邬俊关键词:ADABOOST 朴素贝叶斯 文本分类 基于属性加权朴素贝叶斯的冠心病辨证模型 被引量:5 2008年 在原有中医药冠心病临床治疗数据采集系统的基础上,使用中医证型的辨证相关因素,提出属性加权朴素贝叶斯算法,并应用到冠心病中医证型的分类模型之中。实验结果显示,对于冠心病4种证型的分类,运用属性加权朴素贝叶斯分类算法都略高于朴素贝叶斯分类算法。实验结果表明属性加权朴素贝叶斯分类算法在中医冠心病临床诊断中具有良好的分类性能。 刘智 桑国明 鲁明羽关键词:冠心病 基于模糊聚类的网络论坛热点话题挖掘 被引量:23 2008年 为解决单个帖子线索的多话题性问题,识别聚类中的孤立点,提出一种基于模糊聚类的网络论坛(BBS)热点话题挖掘算法.采用模糊聚类进行话题识别,使得一个帖子线索可以隶属于多个话题,而对于隶属度远小于类内平均隶属度的帖子线索,则当作孤立点来处理.此外,还给出了一种面向BBS文本的特征表示方法,并结合隶属度给出基于模糊划分的话题热度评分公式.实验结果验证了该算法的有效性. 鲁明羽 姚晓娜 魏善岭关键词:模糊聚类 基于特征多视图提升Naive Bayesian的Boosting改进算法 被引量:1 2009年 AdaBoost作为一种有效的集成学习方法,能够明显提高不稳定学习算法的分类正确率,但对稳定的Naive Bayesian分类算法的提升效果却不明显.为此,利用多种特征评估函数建立不同的特征视图,生成多个有差异的加权朴素贝叶斯(WNB)基分类器;尝试使用几种不同的方式将样本权重嵌入WNB基分类器的参数中,对WNB产生扰动,进一步增加基分类器的不稳定性.实验结果表明,对比AdaBoost所提算法,Boost MV-WNB能够明显提升WNB文本分类器的性能. 林正奎 唐焕玲 鲁明羽 王敬东关键词:ADABOOST 加权朴素贝叶斯 文本分类 一种结合独立性模型与差异评估的Co-Training改进方案 被引量:7 2008年 Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了新的特征子集划分方法PMID-MI与PMID-CHI算法,能有效地将一个特征集合划分成两个独立性较强的子集.并且利用多种差异评估法,进一步验证两个子集的独立性.基分类器之间的差异性能够减少两个基分类器给同一个未标注文本都标注错误的可能性.最后,提出了对Co-Training的改进算法SC-PMID.实验结果表明SC-PMID算法能够明显提高半监督分类精度. 唐焕玲 林正奎 鲁明羽 邬俊关键词:半监督分类 关联规则在冠心病中医临床证型诊断中的应用 被引量:5 2008年 利用冠心病个体化诊疗系统,采集患者信息,运用关联规则方法对患者的信息进行挖掘分析,挖掘出的信息对医师的临床诊疗有重要参考价值。在此采用基于最小提升率的关联规则挖掘方法,实验表明基于最小提升率的关联规则在中医证型诊断模型中有良好的分类性能。 时丽莎 鲁明羽 李丹关键词:关联规则 冠心病 面向循证医学网络文献的SVM分类方法 被引量:2 2008年 支持向量机(support vector machine,SVM)是在统计学习理论基础上发展起来的一种新的机器学习方法,是一种高效的分类识别方法。首先分析支持向量机原理,然后提出一种使用Bagging组合学习方法改进SVM算法的网页分类方法。基于循证医学网络文献分类的实验表明,该方法使训练数据规模大大减小,且比传统的SVM算法分类性能更好,具有较好的精确率和召回率。 甘新玲 鲁明羽 唐焕玲 李永关键词:循证医学 网页分类 支持向量机 核函数 一种用于互动型不良信息过滤的贝叶斯改进方案 被引量:1 2009年 信息过滤是文本挖掘领域的重要研究内容之一。针对互动型网络媒体信息(如BBS),提出一种新的信息过滤算法,该算法主要从特征提取和分类器构造两方面对B ayesian方法进行改进。在对不良信息的特征提取过程中,根据网络论坛的特征,在计算中文不良信息特征项的权重时,根据关键词出现的位置、次数以及词长等建立一个特征评估函数,并用它来替换TF-IDF公式中的TF项;同时,考虑到网络论坛中的良性信息与不良信息之间的不平衡分布,采用一种不对称的学习策略来设计B ayesian分类器。实验结果及对比分析表明,该算法具有较高的过滤准确率。 魏善岭 傅英亮 鲁明羽关键词:不良信息 信息过滤