基于相关性组合变量的色谱数据分析方法
色谱作为一种分离和分析技术,由于其分离效率高、速度快、灵敏度高等特点,在分析化学、蛋白组学、代谢组学、石油化工以及医药卫生等领域有着广泛的应用.基于色谱技术的生物化学等数据通常维数较高,包含噪音,如何从色谱大数据中挖掘出富含信息的特征,是色谱技术应用研究的一个关键问题.主成分分析(PCA)、偏最小二乘法判别分析(PLS-DA)、SVM-RFE,随机森林(Random forest)等数据分析方法大量应用于色谱数据分析,滤去其中的噪音和无关变量,筛选富含信息的特征变量,建立有效的分类模型。在实际应用中,特征变量存在着相互关联,单一的、不含信息的特征变量相互关联,组合起来表征所研究的问题。因此,本文提出基于相关性特征和最大信息系数的特征选择算法(MICCOR),该算法采用线性相关构建特征的组合方式,扩大信息搜索空间,同时采用最大信息系数”2”评价原始变量和所构建的基于相关性的组合变量,选择富含信息的特征变量。
色谱数据 特征选择 信息系数 组合变量
林晓惠 王珏
大连理工大学计算机科学与技术学院,大连,116024
国内会议
成都
中文
121-122
2017-05-19(万方平台首次上网日期,不代表论文的发表时间)