会议专题

基于信息变化量衡量主成份分析在基因芯片聚类中的作用

基因芯片的数据分析方法中,聚类一直是最常用手段之一.许多研究者认为主成份分析可以有效的挖掘数据中潜在的结构并抑制噪声.如果聚类分析建立在一个清晰的数据结构上,将提高结果准确率.但由于基因芯片数据具有一定特殊性,基因间存在相互作用而彼此并不独立.所以主成份分析作为聚类的前提是否仍然成立,成为一个值得探讨的问题。我们利用三组有生物学家人为分类的基因芯片作为评判标准,通过一个基于信息变化的量来衡量,在聚类之前做主成份提取是否有助于提高分类的准确率.信息变化量较其它评判聚类相似性的方法具有一定优势.结果表明在多数没有外部分类标准的基因芯片实验中,聚类前做主成份分析不会带来结果的显著提升,甚至可能降低聚类准确率.

生物信息学 基因芯片 主成份分析 信息变化 聚类分析

马宁 张正国

中国医学科学院,北京协和医学院,基础医学研究所,北京 100005

国内会议

2008年(第十届)中国科协年会

郑州

中文

302-308

2008-09-17(万方平台首次上网日期,不代表论文的发表时间)