王会珍 作品数:22 被引量:84 H指数:5 供职机构: 东北大学自然语言处理实验室 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 更多>>
基于维基百科类别的文本特征表示 被引量:17 2011年 该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。 王锦 王会珍 张俐关键词:文本分类 文本表示 基于反馈学习自适应的中文话题追踪 话题追踪技术能够帮助人们从浩瀚的信息中获得自己感兴趣的内容.由于话题是动态发展的,在追踪过程中会产生话题漂移的问题.针对该问题以及现有自适应方法的不足本文提出了一种新的自适应方法--基于反馈学习的自适应方法.该方法采用增... 王会珍 朱靖波 季铎 叶娜 张斌关键词:自适应 文献传递 文本内容分类和主题追踪关键技术研究 互联网成为人们快速获取信息以及交换信息工具的同时,也给人们带来了更多新的挑战。人们迫切需要一种高效快速准确的技术来帮助自己处理浩瀚的信息。各种信息检索、信息过滤、分类、主题检测与追踪等文本信息处理技术应运而生,并且得到了... 王会珍关键词:垃圾邮件过滤 特征选取 主题漂移 文献传递 基于多层次特征集成的中文实体指代识别 被引量:3 2007年 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。 张海雷 曹菲菲 陈文亮 任飞亮 王会珍 朱靖波关键词:计算机应用 中文信息处理 条件随机场模型 基于维基百科类别的文本特征表示 本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科... 王锦 王会珍 张俐关键词:文本分类 文本表示 文献传递 面向人名消歧任务的人名识别系统 被引量:4 2011年 CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。 时迎超 王会珍 肖桐 胡明涵关键词:人名识别 人名消歧 系统整合 启发式规则 基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析 朴素贝叶斯分类器在基于内容的垃圾邮件过滤研究和实用系统中有广泛应用,取得了很好的效果。常用的朴素贝叶斯模型有两种:多变量贝努利模型和多项式模型。本文使用中文和英文公开邮件语料对比了分别基于多变量贝努利模型和多项式模型的垃... 张海雷 王会珍 王安慧 朱靖波关键词:垃圾邮件过滤 朴素贝叶斯分类器 文献传递 基于主动学习的自适应话题追踪 针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确... 王会珍 张希娟 朱靖波 张斌文献传递 基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析 朴素贝叶斯分类器在基于内容的垃圾邮件过滤研究和实用系统中有广泛应用,取得了很好的效果。常用的朴素贝叶斯模型有两种:多变量贝努利模型和多项式模型。本文使用中文和英文公开邮件语料对比了分别基于多变量贝努利模型和多项式模型的垃... 张海雷 王会珍 王安慧 朱靖波关键词:朴素贝叶斯模型 垃圾邮件 文献传递 基于多层次特征集成的中文实体指代识别 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件... 张海雷 曹菲菲 陈文亮 任飞亮 王会珍 朱靖波关键词:条件随机场模型 文献传递