龚笔宏
- 作品数:12 被引量:100H指数:4
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 处理中文新词的方法与装置
- 本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查...
- 龚笔宏冯是聪
- 文献传递
- “天网”目录导航服务研究被引量:18
- 2004年
- 为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
- 冯是聪单松巍龚笔宏张志刚李晓明
- 关键词:搜索引擎WEB挖掘中文网页分类
- 一种新的分类评测方法被引量:1
- 2007年
- 分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立了出来,使得new-macro-F1表示的仅仅是分类算法本身。实验结果表明使用新评测指标,同一分类器在不同数据集上的表现波动较小;通过分类器在一个数据集上的表现,可以近似的估计该分类器在另一数据集上的分类质量。
- 龚笔宏
- 关键词:评测方法数据挖掘
- 基于Web挖掘的个性化技术研究被引量:61
- 2004年
- 针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
- 冯是聪单松巍张志刚龚笔宏李晓明
- 关键词:WEB挖掘个性化服务用户建模代理人工智能
- 对文本分类评测方法稳定性的研究被引量:2
- 2008年
- 文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F_1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题.本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标,newmacro-F_1.这一评测指标将数据集的因素从评测过程中独立出来,使得,newmacro-F_1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集上的分类质量.
- 龚笔宏彭波
- 关键词:评测方法数据挖掘
- 基于用户反馈的个性化检索技术研究
- 随着互联网的飞速发展,搜索引擎日渐成为人们必不可少的一项工具。然而一方面由于搜索引擎的用户大多是普通用户,很难将自己复杂的检索目的组织成搜索引擎所需要的简单的查询词表示;因此为用户提供更多的交互式接口,提供启发式检索手段...
- 龚笔宏
- 关键词:搜索引擎信息检索个性化检索用户反馈
- SCC--利用分类技术改进的短摘要比较方法
- 搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进...
- 龚笔宏
- 关键词:信息检索用户反馈搜索引擎
- 文献传递
- 学习中文新词的方法与装置
- 本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查...
- 龚笔宏冯是聪
- 文献传递
- 多任务中文Web查询分析被引量:1
- 2006年
- 用户在使用Web搜索引擎进行信息查询时,可能包含单个或多个主题。该文针对大规模中文搜索引擎系统——北大天网的多任务Web查询,进行了研究和分析。结果显示:多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含2个不同的主题并进行2~7次查询;多任务会话时间的均值是一般会话时间均值的2倍;天网用户的多任务查询主要有3个主题:计算机,娱乐和教育;近1/4的多任务会话中包含不确定的信息。该文用关联分析的方法发现了用户查询主题之间的一些关系。
- 王继民龚笔宏孟涛
- 关键词:搜索引擎多任务关联规则
- 基于HowNet的VSM模型扩展在文本分类中的应用研究被引量:10
- 2007年
- 在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。
- 孙宏纲陆余良刘金红龚笔宏
- 关键词:计算机应用中文信息处理HOWNETVSM模型文本分类