阈值区间:一种基于XCLS和XCLSE的改进方案
分析了XML文档聚类的应用趋势与前景,提出了XML聚类算法所面临的一些问题。详细介绍了由Richi Nayak提出的快速而高效的增量式XML文档聚类算法XCLS和XCLSE.算法提出一种新的XML数据表示结构Level Structure,并在此基础上定义了基于层次相似度的文档聚类计算方式,而不需再花费大量时间与工作来计算”逐对”XML文档之间的相似度.对XCLS和XCLSE算法结合语义的过程进行了改进与定性分析,提出用阈值区间来控制语义信息对XML文档聚类过程影响程度的思想,从而进一步提高XML文档聚类算法的精确度和准确率。
XML文档聚类 层次结构 层次相似度 XCLS XCLSE 语义信息
刘众奇 袁晓洁 张海威 杨娜 王敏辉
南开大学信息技术科学学院计算机科学与技术系 天津 300071
国内会议
桂林
中文
524-529
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)