会议专题

阈值区间:一种基于XCLS和XCLSE的改进方案

分析了XML文档聚类的应用趋势与前景,提出了XML聚类算法所面临的一些问题。详细介绍了由Richi Nayak提出的快速而高效的增量式XML文档聚类算法XCLS和XCLSE.算法提出一种新的XML数据表示结构Level Structure,并在此基础上定义了基于层次相似度的文档聚类计算方式,而不需再花费大量时间与工作来计算”逐对”XML文档之间的相似度.对XCLS和XCLSE算法结合语义的过程进行了改进与定性分析,提出用阈值区间来控制语义信息对XML文档聚类过程影响程度的思想,从而进一步提高XML文档聚类算法的精确度和准确率。

XML文档聚类 层次结构 层次相似度 XCLS XCLSE 语义信息

刘众奇 袁晓洁 张海威 杨娜 王敏辉

南开大学信息技术科学学院计算机科学与技术系 天津 300071

国内会议

第二十五届中国数据库学术会议(NDBC2008)

桂林

中文

524-529

2008-10-24(万方平台首次上网日期,不代表论文的发表时间)