陈黎 作品数:61 被引量:238 H指数:7 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家自然科学基金 四川省科技支撑计划 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 经济管理 更多>>
一种面向专业搜索引擎的查询推荐算法 被引量:4 2013年 根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recom-mendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。 王桂华 秦湘清 陈黎 王亚强 于中华关键词:查询推荐 专业搜索引擎 长度分布约束下的摘要文本无监督分割算法 被引量:2 2017年 作为文章内容的浓缩表达,摘要蕴含着文章关键的发现和结论。自动分析挖掘摘要内容,对于充分利用快速增长的科技文献具有重要意义。该文以Medline生物医学文章的摘要为对象,对摘要的文本分割问题进行了研究。针对摘要各论述侧面(内容块)之间在长度分布上倾向于均匀的特点,提出了一种考虑长度分布约束的摘要文本无监督分割算法,该算法以信息熵作为长度分布均匀性的度量指标,将信息熵与块内语义相似度及块间语义相似度相结合作为优化的目标函数,采用动态规划方法搜索最佳分割点。在8 603篇Medline摘要上对算法进行了实验验证,并与文献中最新的无监督分割算法进行了实验对比。结果表明,该文提出的增加了长度分布约束的分割算法更加适用于摘要文本分割,分割的准确率有3%的提高。 骆俊帆 陈黎 于中华 丁革建 罗谦关键词:文本分割 动态规划 生物医学 清代成都重庆城市发展比较研究 清代的成都、重庆代表着两种不同的城市类型,前者是传统的内陆政治中心城市,有很强的政治军事功能;后者是近代开埠后迅速发展起来的沿江经济中心城市,经济功能异常突出,它们各自发展的特殊性与同一性对此时期其他城市而言较为典型。因... 陈黎关键词:清代 城市发展 文献传递 基于K近邻的新话题热度预测算法 被引量:30 2012年 随着互联网的快速发展,网络舆情成为政府部门和企业以及社会大众关注的焦点,对网络舆情进行有效监管和正确引导是当前亟待解决的问题,话题热度预测是舆情监管和引导的基础。针对现有算法无法对新话题的热度进行有效预测的缺点,提出了一种基于K近邻的新话题热度预测算法。该算法利用与新话题相似的历史话题的点击数时间序列来对新话题的热度进行预测。实验结果表明,在允许相对误差分别低于10%、20%和30%的情况下,算法预测的前3天点击数的平均正确率分别为47.26%、61%和67.7%,点击数变化趋势平均正确率达到73.73%,这也说明了相似的话题在话题出现的初期具有近似的热度变化趋势。 聂恩伦 陈黎 王亚强 秦湘清 金宇 于中华关键词:K-近邻算法 网络舆情 基于K近邻的腧穴配方自动生成算法 被引量:1 2013年 针灸是中医的重要组成部分,运用新兴技术挖掘大量隐藏在针灸诊疗记录中的规律,既可推动针灸更好地为国民健康服务,又能促进中医现代理论体系的完善。腧穴(即穴位)的选择是针灸治病的关键,而运用现代技术选择腧穴的研究还处于起步阶段。以数据挖掘技术为手段,提出了一种基于K近邻方法的腧穴处方自动生成算法。该算法通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。为更好地计算病历的相似性,根据针灸临床数据的特点分别采用了规范症状、一元字串(unigram)和二元字串(bigram)三种特征。在包含6 267条针灸临床病历的数据集上对算法的有效性进行了验证,实验结果表明使用一元字串和二元字串的特征更适合腧穴处方的自动生成,在删除或保留患者复诊数据这两种情况下F度量值分别可达到40.30%和62.71%。 李云松 王亚强 陈黎 秦湘清 于中华 黄文静关键词:K近邻 特征提取 中药配方颗粒自动发药机中的串行通信特殊技术 被引量:4 2006年 系统采用西门子S7-200PLC控制中药配方颗粒自动发药机,遵循PLC内部固有的PPI通信协议,上位机采用VB连接OPC数据存取服务器的方法进行VB与PLC的串行通信,实现人机操作任务,这种通信方法与一般的自由通信协议相比,省略了PLC的通信程序编写,只需编写上位机的通信程序,节省PLC资源,缩短了系统开发周期.该通信技术已成功用于实践. 袁小玲 李志蜀 陈黎 林梅琴关键词:中药配方颗粒 S7-200PLC OPC 非线性生物动力系统的智能控制 陈黎关键词:活性污泥过程 遗传算法 模糊控制 基于多分类器的金融领域多元关系信息抽取算法 被引量:6 2011年 为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题。在事件句的识别上,提出了基于SVM的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法,角色识别的F-Measure可以提高1.9%。 赵小明 朱洪波 陈黎 王亚强 秦湘清 于中华关键词:事件抽取 有监督学习 基于登录词邻接关系的双条件概率的领域术语抽取算法 被引量:2 2011年 领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果. 陈黎 于中华 王亚强 秦湘清关键词:术语抽取 领域词典 Nave Bayes分类器制导的专业网页爬取算法 被引量:3 2010年 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 韩国辉 陈黎 梁时木 唐小棚 王亚强 于中华关键词:中文信息处理 BAYESIAN CLASSIFIER