WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法

摘要：

WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来识别新的名词,排除干扰因素;在后缀树聚类计算聚类分数时利用网络词典设置词语权重,提高聚类质量;聚类结果描述利用网络词典确定聚类标签,标志聚类话题的基本类别。这种方法在新闻领域取得了很好的效果。

关键词：网络词典后缀树 web文档聚类算法词语权重

作者: 务孟庆高军王腾蛟杨冬青

作者单位: 北京大学数据库和信息系统研究室,北京 100871

会议类型: 国内会议

会议名称: 2007年全国网络与信息安全技术研讨会

会议地点: 青岛

会议语种:中文

页码: 352-359

在线出版日期: 2007-07-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法