K-split Lasso:一种有效的肿瘤特征基因选择方法
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而为研究肿瘤特征基因选择和亚型分类提供了方便,其成为生物信息学领域的研究热点.然而,面对高维小样本的肿瘤基因表达谱数据,如何在成千上万个基因中有效地选出样本的分类特征是肿瘤基因表达谱分析中的难点问题.基于Lasso方法,提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,从而得到最终的特征基因.实验采用支持向量机作为分类器,结果表明K-split Lasso方法减少了冗余特征,提高了分类精度,且算法具有良好的稳定性.由于每次计算的维数降低,解决了计算开销过大的问题,并在一定程度上解决了“过拟合”问题,因此可以得出,K-split Lasso方法是一种有效的肿瘤特征基因选择方法.
Tumor gene expression profiles Lasso Feature selection Support vector machine
张靖 胡学钢 张玉红 施万锋
合肥工业大学计算机与信息学院 合肥230009
国内会议
第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议
合肥
中文
108-108
2012-10-13(万方平台首次上网日期,不代表论文的发表时间)