搜索到67篇“ 交集型歧义“的相关文章
基于CFRs模交集歧义消解研究
2018年
中文自动分词是中文信息处理的基础,交集歧义字段的消解又是中文自动分词中的重点。本文将CRFs模用于交集歧义字段的歧义消解中。该算法将交集歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。
尤慧丽
关键词:中文自动分词交集型歧义
人机共赢中文分词全正确:谈交集歧义字段的处理(英文)
书面英文词与词之间用空格分开,而中文却没有词之间的边界标记。因此,词切分成了中文信息处理的一个基础工程。中文的计算机分词研究一直都在力图实现全自动和高质量。但是要确保自动分词的百分之百正确,计算机就得完全理解每个句子的意...
张小衡李笑通
关键词:汉语学习机器翻译
文献传递
一种基于无监督学习的交集歧义处理改进方法被引量:1
2015年
歧义处理是中文分词的难点之一,其中交集歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,所提出的方法能有效进行分词,并提高了交集歧义消解的性能.
黄鹏张姝陈玉华文斌
关键词:分词无监督学习交集型歧义
基于词典和语素的交集歧义消除模被引量:1
2013年
提出了一种消除中文分词中交集歧义的模。首先通过正向最大匹配法和逆向最大匹配法对中文文本信息进行分词,然后使用不单独成词语素表对分词结果进行分析对比消歧,得到符合汉语语境的结果。整个过程分为歧义识别、歧义分析、歧义消除三个阶段。实验结果表明,该模可以有效降低由交集歧义引起的中文文本切分错误率。
李春雨王勇
关键词:自然语言处理分词交集型歧义
一种改进的藏文分词交集歧义消解方法被引量:3
2012年
藏文分词是藏文信息处理的基础,歧义问题是藏文分词的一个难点,而交集歧义问题占藏文分词歧义问题的90%以上,因此,对交集歧义问题的研究是藏文分词研究的一个重点。本文通过统计分析,按藏文文本中交集歧义的规则特点,给出了一种改进的藏文分词交集歧义消解方法,从而进一步提高了藏文自动分词的准确率。
羊毛卓玛欧珠
关键词:自动分词交集型歧义
藏文分词中交集歧义字段的切分方法研究
2012年
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。
普布旦增欧珠
关键词:藏文分词交集型歧义
基于避免交集歧义的最大匹配算法改进的研究与实现
在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改进算法是针对分...
康晨阳
关键词:最大匹配算法中文信息处理中文分词算法
文献传递
一种消除中文分词中交集歧义的方法被引量:4
2011年
切分速度和精度是中文分词系统的两个主要性能指标。针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集歧义字段,通过互信息的方法来消除,以提高分词精度。并对该分词系统进行了实现。通过与传统的中文分词系统的分词速度以及分词效果的对比,发现该系统在分词速度和精度上都有所进步,从而取得较好的分词效果。
魏博诚王爱平沙先军王永
关键词:中文分词互信息交集型歧义
中文分词交集歧义处理研究
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确地切分成词串,即对词边界的自动识别,是中文信息处理中迫切需...
魏博诚
关键词:中文分词分词算法中文信息处理
基于关联规则的交集歧义消解算法被引量:3
2010年
交集歧义字段为研究对象,考察包含交集歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.
袁鼎荣钟宁
关键词:关联规则歧义消解

相关作者

袁健
作品数:83被引量:288H指数:10
供职机构:上海理工大学光电信息与计算机工程学院
研究主题:隐私 WEB 差分 噪声 卷积神经网络
戴新宇
作品数:184被引量:535H指数:10
供职机构:南京大学
研究主题:机器翻译 文本 计算机 源语言 神经网络
欧珠
作品数:32被引量:68H指数:5
供职机构:西藏大学
研究主题:藏文 藏文编码 计算机应用 中文信息处理 远程教育
张劲松
作品数:3被引量:29H指数:3
供职机构:上海理工大学光电信息与计算机工程学院
研究主题:交集型歧义 中文分词 最大匹配法 中文分词算法 验证码
李天侠
作品数:3被引量:2H指数:1
供职机构:南京大学计算机科学与技术系
研究主题:交集型歧义 混合模型 全切分 统计语言模型 汉语自动分词