WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法
WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来识别新的名词,排除干扰因素;在后缀树聚类计算聚类分数时利用网络词典设置词语权重,提高聚类质量;聚类结果描述利用网络词典确定聚类标签,标志聚类话题的基本类别。这种方法在新闻领域取得了很好的效果。
网络词典 后缀树 web文档 聚类算法 词语权重
务孟庆 高军 王腾蛟 杨冬青
北京大学数据库和信息系统研究室,北京 100871
国内会议
青岛
中文
352-359
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)