会议专题

PLS-DA变量筛选中偶然相关效应的评价研究

偏最小二乘判别分析(PLS-DA)是代谢组学中常用的多元分析方法,利用PLS-DA建立多变量模型常涉及差异变量的筛选.通过变量筛选剔除数据中的非信息噪声变量,简化模型复杂程度,提升模型性能.由于高维组学数据变量和观测数不均衡的特点,当变量数远大于观测数时,变量筛选出现偶然相关,可能使无差异的研究对象间产生差异,交叉验证建立及选择PLS-DA模型往往会给出与真实情况不符的显著结果;随变量数与样本数比值增大,特征筛选过程对于偶然相关的敏感性也增加.本文通过模拟数据和真实数据,在无外部验证集时,评价PLS-DA变量筛选中的偶然相关效应,检查变量筛选前后模型的优化是否由偶然相关导致,以确定不同组别研究对象间是否存在真实差异.

医学统计学 偏最小二乘判别分析 变量筛选 偶然相关效应

孙琳 刘美娜

哈尔滨医科大学卫生统计教研室

国内会议

2016年中国生物统计学术年会

天津

中文

506-506

2016-07-26(万方平台首次上网日期,不代表论文的发表时间)