搜索到131篇“ 分词词典“的相关文章
电网设备分词词典和故障案例库构建方法
一种电网设备分词词典和故障案例库构建方法,构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述...
杨祎秦佳峰闫丹凤秦晔辜超林颖白德盟郑文杰刘萌朱庆东李杰朱文兵朱孟兆
文献传递
电网设备分词词典和故障案例库构建方法
一种电网设备分词词典和故障案例库构建方法,构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述...
杨祎秦佳峰闫丹凤秦晔辜超林颖白德盟郑文杰刘萌朱庆东李杰朱文兵朱孟兆
文献传递
基于统计方法从文本中抽取分词词典被引量:2
2020年
常见的机器翻译方法有两种,一种是已经发展得比较完善的统计机器翻译,另一种是出现不久的神经机器翻译。这两种翻译方式首先都需要将文本划分成词或短语,对于一些语种,如中文,词并不是明显分开的,必须要分词分词的时候,需要使用词典,通常词典是人工生成人工添加。本文提出了一种方式,可以从复数文本中自动提取分词词典
黄超
关键词:机器翻译分词词典
越南语分词词典半监督集成构建算法
2018年
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
刘伍颖王琳
关键词:分词词典多音节词越南语
分词词典的生成方法和装置及分词处理方法和装置
本发明提出一种分词词典的生成方法和装置及分词处理方法和装置,该分词词典的生成方法包括获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率...
肖朔李秀林白洁
文献传递
分词词典的生成方法和装置及语音合成方法和装置
本发明提出一种分词词典的生成方法和装置及语音合成方法和装置,该分词词典的生成方法包括对收集的预设范围内的文本进行划分,得到组成所述文本的句子;对所述句子进行划分,得到不同长度的字符串;根据所述不同长度的字符串,确定不同长...
李秀林肖朔白洁
文献传递
基于农业垂直搜索引擎中文分词词典的构建研究被引量:3
2015年
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。
张启宇于辉辉陈英义王磊
关键词:中文分词农业词典MYSQL
分词词典的生成方法和装置及分词处理方法和装置
本发明提出一种分词词典的生成方法和装置及分词处理方法和装置,该分词词典的生成方法包括获取原始句语料;对所述原始句语料进行切分,得到分词,并对所述分词进行过滤,得到过滤结果,所述过滤包括如下项中的至少一项:基于词频和逆频率...
肖朔李秀林白洁
分词词典的生成方法和装置及语音合成方法和装置
本发明提出一种分词词典的生成方法和装置及语音合成方法和装置,该分词词典的生成方法包括对收集的预设范围内的文本进行划分,得到组成所述文本的句子;对所述句子进行划分,得到不同长度的字符串;根据所述不同长度的字符串,确定不同长...
李秀林肖朔白洁
一种分词词典自动扩展的方法和装置
本发明公开了一种分词词典自动扩展的方法和装置。本发明的方法包括以下步骤:通过搜索日志或通过网络爬虫获取词汇资源文本;采用分词器对词汇资源文本处理后提取未能识别的单词组成候选词汇;统计候选词汇中每个单词在候选词汇中的出现的...
罗晶尹岩严敏
文献传递

相关作者

张培颖
作品数:87被引量:169H指数:7
供职机构:中国石油大学(华东)
研究主题:虚拟网络 映射方法 网络 网络资源 句子相似度
丁维
作品数:7被引量:29H指数:3
供职机构:北京机械工业学校计算机与自动化系计算机及自动化系
研究主题:搜索引擎 校园网 词典 分词词典 索引技术
周长胜
作品数:11被引量:107H指数:5
供职机构:北京机械工业学校
研究主题:校园网 搜索引擎 词典 分词词典 分词方法
马志强
作品数:105被引量:162H指数:7
供职机构:内蒙古工业大学
研究主题:蒙古语 声学模型 语言模型 向量 语音数据
杨娜
作品数:6被引量:28H指数:3
供职机构:北京机械工业学校计算机与自动化系计算机及自动化系
研究主题:校园网 搜索引擎 词典 分词词典 搜索器