AIRBAG:一种基于迭代重聚类的基因表达数据聚类算法

微阵列技术的发展产生了大量的高维基因表达数据。直接把适合低维空间聚类的传统算法用于高维基因表达数据分析难以得到理想的结果,维组合和维削减两种降维方式都存在着各自的不足—维组合方式产生的新特征很难用原来的领域知识进行解释,维削减方式削减了特征维,通常会丢失信息。另外,多数聚类算法通常由用户指定聚类参数,细微的参数设置差别会导致差异很大的结果。本文针对上述问题,提出了一种新的基于迭代重聚类的基因表达数据聚类分析算法—AIRBAG。它不进行维组合,也不进行维削减,在特征重聚类的基础上,反复用最新得到的样本聚簇重新聚类基因,然后以新的基因聚簇为特征重新聚类样本,逐步求精,最终的结果容易解释且避免了信息的丢失。本文还给出了一种自动确定聚类参数的方法,该方法降低了由于用户缺少领域知识引起的实验误差。AIRBAG 算法被应用于两个微阵列数据集,colon 数据集和 leukemia 数据集,实验结果验证了算法的有效性。
微阵列 基因表达数据 降维 迭代重聚类 聚类算法
赵宇海 印莹 王国仁 毛克明 乔百友 韩东红
东北大学信息科学与工程学院,辽宁沈阳110004
国内会议
武汉
中文
2005-10-13(万方平台首次上网日期,不代表论文的发表时间)