欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

非平衡基因数据的差异表达基因选择算法研究

谢娟英; 王明钊; 周颖; 高红超; 许升全 陕西师范大学计算机科学学院; 西安710119; 陕西师范大学生命科学学院; 西安710119; 中国科学院大学网络空间安全学院; 北京100093; 中国计算机学会
基因选择   auc   互信息   mrmr   不平衡数据  

摘要:针对准确率不适于评价不平衡数据特征子集性能的缺陷,提出了 F2 -measure(简称 F2 )准则.为避免mRMR(minimal Redundancy-Maximal Relevance)的互信息方法倾向于选择多值特征,提出了归一化互信息 SU (Symmetrical Uncertainty).针对最大化 AUC (Area Under an ROC Curve)框架下,特征选择算法的特征与类标相关性、特征间相关性的取值范围(量纲)不一致问题,提出了归一化的特征权重.为加快特征选择过程,提出了结合 SU和AUC 的特征预选择,缩小特征搜索空间.提出动态加权顺序前向搜索DWSFS(Dynamic Weighted Sequential Forward Search)和动态加权顺序前向浮动搜索DWSFFS(Dynamic Weighted Sequential Forward Floating Search),以期得到分类性能更好的特征子集.基于最大化 AUC 和mRMR框架,结合上述创新点,设计出16种特征选择算法.7个经典二类不平衡基因数据集、3个多类不平衡(或近似平衡)基因数据集的50次重复实验表明:所提算法选择的基因子集具有非常好的分类识别能力;提出的 F2、SU、归一化基因权重、基因预选择,以及DWSFS和DWSFFS对选择非平衡基因数据集的差异表达基因非常有效.提出的 SU 在度量基因冗余性时优于斯皮尔曼等级相关系数 RCC (Rank Correlation Coefficient);基因选择过程中的权值度量采用基因与类标相关性减去基因间冗余性优于采用基因与类标相关性除以基因冗余性方案.与现有经典基因选择算法的实验比较表明:提出的基因选择算法的性能优于现有基因选择算法.

简介:《计算机学报》(CN:11-1826/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机学报

北大期刊 下单

关注 18人评论|1人关注
服务与支持