会议专题

优化初始聚类中心的电子病历聚类算法

电子病历是临床医学常见的文本数据,不同病人的不同病种构成了一类文本数据集,对这些数据集进行数据挖掘及归类是非常有必要的。聚类分析是多元统计分析中的一种,也是非监督模式识别的一个重要分支。它把一个没有类别标记的样本集按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。聚类分析也是知识发现的重要工具,其中的文本聚类是模式识别、机器学习、统计学和信息检索技术相互结合和发展的结果。聚类技术对疾病进行归类、分清疾病的轻重缓急以及疾病的发展过程,对于临床治疗措施的选择以及研究具有重要的意义。通过实验发现,在小规模的数据集上,经过优化初始中心点K—平均聚类算法的准确率有明显提高,消除了算法对初始聚类中心的敏感性。但通过实验发现,该初始中心优化的聚类算法计算量较大,且优化过程的占整个聚类过程的时间较多,在以后的工作中,将改进优化算法,提高该算法的效率,并在大规模的数据集上进行测试验证。

电子病历 数据挖掘 聚类算法 初始中心点 优化分析

刘强 曹磊

南昌大学第一附属医院 南昌330006

国内会议

中华医学会第二十一次全国医学信息学术会议

郑州

中文

420-422

2015-06-17(万方平台首次上网日期,不代表论文的发表时间)