搜索到427篇“ 新词发现“的相关文章
- 融合汉字多语义与文本统计特征的中文医学新词发现研究
- 2024年
- [目的/意义]为提高机器理解医学文本的能力,提高医学自然语言处理等上层任务效果,保障医学知识内容更新及时性、覆盖完整性,提出一种融合汉字多语义信息与文本统计特征的医学新词发现方法。[方法/过程]以规范用词的医学文献摘要数据为新词发现来源,基于N-gram模型获取N元词串,将词串存入字典树,从词的内部凝固度、词的自由程度、词的语义相似度3个角度同时计算每个N-gram词串的关联置信度、左右邻接熵、多语义相似度(包括汉字细粒度字符语义信息、BERT词向量信息),遍历上述各指标阈值评估N-gram词串为医学新词的可能。[结果/结论]从中华医学会收录的截至2022年10月20日的最新1000篇文摘中发现医学新词3263个,去除重复项后,共获得764个医学新词。提出的融合汉字多语义与文本统计特征的医学新词发现方法对比现有方法具有一定提升,且在应用上可以有效提高医学分词任务效果,使医学分词后的名词类别更清晰、概念更明确、内涵更丰富。结合汉字内在多语义信息与字词外部统计特征的医学新词发现方法,不仅可以提高计算机的新词发现能力,还可提高计算机面对专业且复杂的医学文本自然语言处理效果,对及时更新领域知识内容等具有重要帮助。
- 王巍洁任慧玲李晓瑛王勖张颖
- 关键词:N-GRAM
- 一种新的基于语句语义相似度的网络新词发现方法
- 本发明公开了一种新的基于语句语义相似度的网络新词发现方法,涉及社交媒体分析领域。该方法主要包括分词表示模块、语句语义向量生成模块与新词发现模块三部分组成。包括以下步骤:首先,构建标准语料库,其中包括各种文本文档,用作方法...
- 马跃峰于淦峰宋杨刘智斌王心水
- 一种文本新词发现分析方法、系统、装置和介质
- 本发明公开了一种文本新词发现分析方法、系统、装置和介质,包括获取各行业的文本数据,得到原始新词数据集;基于文本内容的行业类别字段进行筛选,得到行业文档集;基于原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集;...
- 张文广邢添威张书浆丁照源王彪于俊高
- 基于推理、高置信度、遗传迭代的新词发现算法
- 本发明提出了一种基于推理、高置信度、遗传迭代的新词发现算法。本发明提出了用推理方式替代组合穷举方式产生候选新词,将新词候选集从超巨大稀疏空间,降低了到数十万的量级,使得现有的计算和存储资源从不可处理,变成可以处理;本发明...
- 罗伟杰
- 一种网络技术新词发现及应用领域预测方法和系统
- 本发明公开了一种网络技术新词发现及应用领域预测方法和系统,涉及自然语言处理领域,用于提高网络技术新词发现和领域预测的准确度。本发明包括三个部分,第一部分是利用人工收集和Glove词向量模型获取相似词的方式,初步确定种子新...
- 丁建伟李斌李航李欣泽陈周国王泽珺王鑫
- 一种网络技术新词发现及应用领域预测方法和系统
- 本发明公开了一种网络技术新词发现及应用领域预测方法和系统,涉及自然语言处理领域,用于提高网络技术新词发现和领域预测的准确度。本发明包括三个部分,第一部分是利用人工收集和Glove词向量模型获取相似词的方式,初步确定种子新...
- 丁建伟李斌李航李欣泽陈周国王泽珺王鑫
- 我国人工智能政策新词发现与演化研究——一个多特征融合的算法被引量:1
- 2024年
- [目的/意义]作为中文分词的基础研究,新词发现是研究政策创新和扩散的重要技术方法。本文通过改进新词发现算法优化了政策文本分词不准确的问题,并构建词库以支持人工智能政策的演化研究。[方法/过程]提出多特征融合新词发现算法MFF,实现了对人工智能政策新词的挖掘,从新词角度对人工智能政策的创新、延续和扩散进行演化分析。[结果/结论]实验结果证明,本文提出的多特征融合新词发现算法MFF能够有效提升分词效果,丰富领域词库;人工智能政策新词出现的时序变化反映了不同阶段政策关注的重点发展领域,揭示了中央和地方政府在政策创新、延续、扩散和演化方面的特点。
- 刘清民王芳王芳
- 关键词:新词发现人工智能
- 欧盟基础教育数字化转型的发展历程与显著特征——基于TF-IDF算法和新词发现法的政策文本分析
- 2024年
- 当前,我国正在积极推进基础教育数字化转型,但在政策支持、内涵建设、技术融合等方面亟待改善。欧盟拥有教育数字化转型的历史积淀和丰富经验,可以采用TF-IDF算法和新词发现法对欧盟2000-2021年间发布的17份相关文件进行加工、处理和分析,总结提炼其历史进程和典型特征。欧盟基础教育数字化转型的发展历程分为三个阶段:数字化转换是欧盟基础教育数字化筑基阶段;数字化升级是欧盟基础教育数字化创新阶段;数字化转型是欧盟基础教育数字化整合阶段。同时,欧盟基础教育数字化转型体现出一些显著特征,包括顶层设计的统筹与分化、教育生态的转变与创新、数字能力的规范与迭代,以及责任主体的交流与合作,能够为我国的基础教育数字化转型提供借鉴。
- 黄蓓蓓朱家莹钱小龙
- 关键词:基础教育欧盟
- 一种基于统计量与相似性的网络新词发现方法及系统
- 本发明属于自然语言处理领域,公开了一种基于统计量与相似性的网络新词发现方法及系统,先计算单字词的词频得到初始的单字词集合,并利用改进后的增强互信息和加权左右邻接熵从左向右扩展多字候选词,合并单字词集和多字词集得到候选新词...
- 陈莉张爽李铮
- 终端设备及新词发现方法
- 本申请提供一种终端设备及新词发现方法,所述方法可以响应于指示在目标文本中检测新词的控制指令,将目标文本输入至语言模型,以得到目标文本的语义向量和预测向量,再根据语义向量和预测向量,将目标文本切分成多个候选词,以及在多个候...
- 巨荣辉方依云陶扬李俊彦
相关作者
- 刘春阳

- 作品数:112被引量:10H指数:2
- 供职机构:国家计算机网络与信息安全管理中心
- 研究主题:文本 用户 信源 抽取方法 流数据
- 刘奕群

- 作品数:148被引量:686H指数:13
- 供职机构:清华大学
- 研究主题:用户行为分析 搜索引擎 网络信息检索 查询 用户行为
- 吴悦

- 作品数:4被引量:10H指数:1
- 供职机构:复旦大学数学科学学院
- 研究主题:新词发现 似然比 元组 新词
- 颜强

- 作品数:58被引量:0H指数:0
- 供职机构:深圳市腾讯计算机系统有限公司
- 研究主题:存储介质 计算机设备 搜索方法 文本 电子设备
- 周新宇

- 作品数:5被引量:22H指数:1
- 供职机构:北京理工大学
- 研究主题:新词发现 语料 成词 选词 候选