基于数据挖掘流程的Logistic回归方法——在亚健康人群分类及其临床特征分析中的应用
目的:该研究应用数据挖掘流程以及使用Logistic回归建模方法,对亚健康状态的流行病学调查数据进行分析,建立亚健康状态判断模型并对其临床特征进行了研究.方法:采用从数据理解到数据准备和变量筛选再到选择Logistic回归建模的数据挖掘流程,模型训练过程是首先将全部2613例按7:3的比例随机分为训练集(1830例)和测试集(783例),在训练集上训练模型,在测试集上对模型准确性进行测试,确定最终的回归方程,从而得到亚健康状态的判别方程及其临床特征描述.结果:建立了两种Logistic回归模型,在此基础上还应用数据挖掘的思想对回归方程做进一步的测试,得到了分类准确率较高的验证,提示亚健康的主要临床特征表现为躯体的疲劳、睡眠不实、记忆力和工作效率下降、饮食二便失调,心理的空虚感和情绪易怒等.结论:该方法在注重利用回归方程来判断和解释影响因素方面以及在自变量较多,使用传统意义的Logistic回归建模可能出现共线性的情况方面,有很大的优越性.该研究应用数据挖掘方法,并使用logistic回归建模,以此对亚健康人群进行分类判断,与现场调查中专家对每个被调查者健康状态的判断相比,符合率在90﹪以上,说明有良好的一致性,还提示亚健康的主要临床特征表现与文献报道一致.该研究还提示一种思路,医学数据的处理不能陷入到方法主义中,要同时兼顾方法的有效性和医学上的可解释性.
亚健康 数据挖掘 logistic回归 聚类分析 临床特征 分类判断
刘保延 何丽云 谢雁鸣 李霞 匡宏波 易丹辉
中国中医研究院,北京,100700 中国人民大学统计学院,北京,100872
国内会议
成都
中文
140-145
2005-09-25(万方平台首次上网日期,不代表论文的发表时间)