基于最大频繁Induced子树的GML文档结构聚类
提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.
GML文档 结构聚类 最大频繁Induced子树 闭合频繁Induced子树 特征空间 CLOPE聚类 TBCClustering
朱颖雯 吉根林
三江学院,计算机基础部,江苏,南京,210012 南京师范大学,数学与计算机科学学院,江苏,南京,210097
国内会议
南京
中文
50-55
2008-11-14(万方平台首次上网日期,不代表论文的发表时间)