王明钊 作品数:12 被引量:58 H指数:4 供职机构: 陕西师范大学计算机科学学院 更多>> 发文基金: 中央高校基本科研业务费专项资金 国家自然科学基金 陕西省科技攻关计划 更多>> 相关领域: 自动化与计算机技术 生物学 医药卫生 更多>>
非平衡基因数据的差异表达基因选择算法研究 被引量:11 2019年 针对准确率不适于评价不平衡数据特征子集性能的缺陷,提出了 F2 -measure(简称 F2 )准则.为避免mRMR(minimal Redundancy-Maximal Relevance)的互信息方法倾向于选择多值特征,提出了归一化互信息 SU (Symmetrical Uncertainty).针对最大化 AUC (Area Under an ROC Curve)框架下,特征选择算法的特征与类标相关性、特征间相关性的取值范围(量纲)不一致问题,提出了归一化的特征权重.为加快特征选择过程,提出了结合 SU和AUC 的特征预选择,缩小特征搜索空间.提出动态加权顺序前向搜索DWSFS(Dynamic Weighted Sequential Forward Search)和动态加权顺序前向浮动搜索DWSFFS(Dynamic Weighted Sequential Forward Floating Search),以期得到分类性能更好的特征子集.基于最大化 AUC 和mRMR框架,结合上述创新点,设计出16种特征选择算法.7个经典二类不平衡基因数据集、3个多类不平衡(或近似平衡)基因数据集的50次重复实验表明:所提算法选择的基因子集具有非常好的分类识别能力;提出的 F2、SU、归一化基因权重、基因预选择,以及DWSFS和DWSFFS对选择非平衡基因数据集的差异表达基因非常有效.提出的 SU 在度量基因冗余性时优于斯皮尔曼等级相关系数 RCC (Rank Correlation Coefficient);基因选择过程中的权值度量采用基因与类标相关性减去基因间冗余性优于采用基因与类标相关性除以基因冗余性方案.与现有经典基因选择算法的实验比较表明:提出的基因选择算法的性能优于现有基因选择算法. 谢娟英 王明钊 王明钊 高红超 周颖关键词:基因选择 AUC 互信息 不平衡数据 一种基于特征辨识度和独立性的特征选择方法及应用 本发明涉及一种基于特征辨识度与独立性的特征选择方法和应用,其是以特征辨识度度量特征的类间判别能力,以特征独立性度量特征间的相关关系,计算出每个特征的重要度值,并按照降序排列,选择重要度远高于其余特征重要度的前k个特征构成... 谢娟英 王明钊基于特征辨识度和独立性的基因选择方法 本发明涉及一种基于特征辨识度与独立性的特征选择方法和应用,其是以特征辨识度度量特征的类间判别能力,以特征独立性度量特征间的相关关系,计算出每个特征的重要度值,并按照降序排列,选择重要度远高于其余特征重要度的前k个特征构成... 谢娟英 王明钊文献传递 聚类有效性评价新指标 被引量:32 2017年 聚类有效性评价指标分为外部评价指标和内部评价指标两大类。现有外部评价指标没有考虑聚类结果类偏斜现象;现有内部评价指标的聚类有效性检验效果难以得到最佳类簇数。针对现有内外部聚类评价指标的缺陷,提出同时考虑正负类信息的分别基于相依表和样本对的外部评价指标,用于评价任意分布数据集的聚类结果;提出采用方差度量类内紧密度和类间分离度,以类间分离度与类内紧密度之比作为度量指标的内部评价指标。UCI数据集和人工模拟数据集实验测试表明,提出的新内部评价指标能有效发现数据集的真实类簇数;提出的基于相依表和样本对的外部评价指标,可有效评价存在类偏斜与噪音数据的聚类结果。 谢娟英 周颖 王明钊 姜炜亮关键词:聚类 聚类有效性 评价指标 F-MEASURE INDEX PS2 双向二核苷酸位置特异性偏好和点互信息DNA/RNA序列编码方法 一种双向二核苷酸位置特异性偏好和点互信息DNA/RNA序列编码方法,由构建DNA/RNA序列核苷酸位置特异性偏好矩阵、构建DNA/RNA序列双向二核苷酸位置特异性偏好矩阵、确定DNA/RNA序列核苷酸的点互信息值、特征组... 王明钊 谢娟英 许升全文献传递 双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法 一种双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法,由建立DNA/RNA序列核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向二核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向三核苷酸位置特异性... 王明钊 谢娟英 许升全文献传递 面向甲基化修饰位点预测的DNA/RNA序列特征编码算法研究进展 被引量:1 2023年 作为一种重要的表观遗传修饰,甲基化在基因表达调控和癌症等复杂疾病的发生发展过程中发挥着至关重要的作用.准确识别DNA/RNA甲基化修饰位点是研究其生物功能的基础.随着高通量测序技术的发展,DNA/RNA序列数据与日俱增,机器学习成为识别和预测甲基化位点的重要方法.DNA/RNA序列的特征编码算法能从序列抽取有效信息并编码为富含分类信息的特征,是建立DNA/RNA甲基化修饰位点识别的机器学习模型的基础,也是影响预测模型性能的关键因素.本文从当前DNA/RNA甲基化修饰位点预测模型文献中,系统总结了常用的40种序列特征编码算法.从计算原理的角度,将这些算法分为7类,并利用3个物种(S.cerevisiae,H.sapiens和Mouse)的RNA m6A和1个物种(A.thaliana)的DNA 4mC修饰基准数据和独立测试数据,对40种算法的性能进行了测试分析.最后,对DNA/RNA序列未来的特征编码算法和生物位点预测模型发展进行了展望. 谢娟英 王明钊 许升全关键词:支持向量机 最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法 被引量:14 2017年 针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。 谢娟英 王明钊 胡秋锋关键词:基因选择 差异表达基因 AUC 不平衡数据 双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法 一种双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法,由建立DNA/RNA序列核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向二核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向三核苷酸位置特异性... 王明钊 谢娟英 许升全基于不平衡基因数据的2D空间基因选择算法研究 近年来,随着计算机技术的快速发展和在生物医学领域的广泛应用,尤其是DNA芯片技术的出现,为癌症的分类诊断及其形成机制的研究和治疗提供了新的思路,同时也致使大量含有高维特征信息的基因表达数据涌现。特征选择作为一种高维数据的... 王明钊关键词:基因选择 文献传递