会议专题

InfoSigs:一种面向WEB对象的细粒度聚类算法

面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对WEB对象的细粒度聚类。算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录问的相似度,减少噪音对合并过程的影响。实验结果表明,InfoSigs算法比传统聚类算法,如I-Match和Shingling,在F-MEASURE值上平均约有21.3%的提高,可以有效地运用到多领域WEB对象的聚类问题。

面向web对象 细粒度聚类算法 信息检索 树状概率 词汇信息分布

盛振华 吴羽 江锦华 寿黎但 陈刚

浙江大学计算机科学与技术系 杭州 310027

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

119-125

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)