陈建华 作品数:6 被引量:14 H指数:2 供职机构: 西北师范大学数学与信息科学学院 更多>> 发文基金: 国家自然科学基金 甘肃省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于DF算法改进的文本聚类特征选择算法 被引量:6 2012年 通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了一定的改进. 樊东辉 王治和 陈建华 许虎寅关键词:词频 高校家庭经济困难学生认定系统的设计与实现 被引量:3 2011年 为解决当前高校家庭经济困难学生认定J-作中的诸多困难.文章使用visual c#开发语言和SQL server数据库.在.net框架下设计并实现了基于B/S模式的高校家庭经济困难学生认定系统,对高校学生家庭经济状况进行定量和定性分析,采用工作流的模式分阶段分层次对学生进行筛选和审核认定,有效提高了高校家庭经济困难学生认定资助27-作的规范合理化和工作效率。 许虎寅 王治和 陈建华 樊东辉关键词:ASP.NET 高校家庭经济困难学生 中文文本分类特征选择方法研究 随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类... 陈建华关键词:中文文本分类 文本挖掘技术 特征词 基于聚类的KNN算法改进 被引量:2 2011年 通过研究KNN算法,提出了一种利用训练集文本聚类结果改进KNN算法的方法,首先将训练集文本采用DBSCAN算法聚进行聚类,将训练集文本分为若干个簇,然后采用KNN算法对测试文档进行测试,最后用距离最近的n个簇中的若干训练集文本使用KNN算法对测试文本进行分类。实验表明,改进后的算法降低了计算量,提高了效率,同时对聚类结果有了一定的改进。 樊东辉 王治和 陈建华 许虎寅关键词:KNN算法 DBSCAN算法 训练集 基于类别区分度和关联性分析的综合特征选择 被引量:1 2012年 提出一种基于类别区分度和关联性分析的综合特征选择算法。利用类别区分度提取具有较强类别区分能力的特征词,降低特征空间的稀疏性,通过特征的关联性分析衡量特征与类别的相关性及特征之间的冗余度,选出具有类别代表性且相互之间不存在冗余的特征词。实验结果表明,该算法能有效提高分类器性能。 陈建华 王治和 蒋芸关键词:文本分类 关联性分析 一种改进的文本分类特征选择算法 2011年 现有的一种特征选择算法DPM(Discriminating Power Measure)[1],是通过计算每个特征在某一类别和剩余其他类别中的文档频,比较了特征对一个类别和对其他类别的贡献,提取出具有强类别区分能力的特征词.在研究此特征选择算法的基础上,提出了一种改进的特征选择算法,该算法同时考虑了每个特征的类别频次在计算特征类别区分能力方面的重要性.经实验验证,改进后的特征选择算法能够获得较好的分类效果. 陈建华 王治和 蒋芸 许虎寅 樊东辉关键词:DPM 词频