您的位置: 专家智库 > >

张宇楠

作品数:1 被引量:5H指数:1
供职机构:中山大学资讯管理学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇增益
  • 1篇搜索
  • 1篇统计量
  • 1篇中文
  • 1篇中文文本
  • 1篇中文文本分类
  • 1篇文本分类
  • 1篇和声搜索

机构

  • 1篇中山大学

作者

  • 1篇路永和
  • 1篇张宇楠

传媒

  • 1篇情报学报

年份

  • 1篇2015
1 条 记 录,以下是 1-1
排序方式:
中文文本分类中基于和声搜索算法的特征选择方法被引量:5
2015年
特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因此,本文在传统特征选择方法的基础上提出一种新的特征选择方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用和声搜索算法以二进制编码形式对预选特征进行优选,选择与否分别编码为1和0。与此同时,以分类准确率作为个体的适应度,在和声库的初始化中设定一个前半解分量为1、后半解分量为0的初始解向量,以此提高初始和声库中解的适应度。使用搜狗语料库、复旦语料库、中山大学资讯管理学院智能信息处理实验室提供的语料库,每个语料库提取的训练文本和测试文本分别为1800篇和900篇。分别使用KNN、朴素贝叶斯、SVM分类器在预选维数为300维、600维、1200维中进行实验。结果表明,对比传统的特征选择方法,采用二进制和声搜索算法进行特征优选后,其分类准确率均得到提高。
路永和张宇楠
关键词:文本分类
共1页<1>
聚类工具0