会议专题

基于最大频繁Induced子树的GML文档结构聚类

提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.

GML文档 结构聚类 最大频繁Induced子树 闭合频繁Induced子树 特征空间 CLOPE聚类 TBCClustering

朱颖雯 吉根林

三江学院,计算机基础部,江苏,南京,210012 南京师范大学,数学与计算机科学学院,江苏,南京,210097

国内会议

第三届江苏计算机大会

南京

中文

50-55

2008-11-14(万方平台首次上网日期,不代表论文的发表时间)