会议专题

ITED:一种基于链接的主题提取和主题发现系统

随着万维网的日益普及与强大,在网络上搜寻所需的信息变得越来越重要了.诸如AltaVista,Hotbot之类的搜索引擎应运而生.典型的搜索引擎是基于文本匹配的,针对用户的查询会返回多个结果,但要从这许多结果中提取出高质量的页面,还需大量的工作.这种发现高质量页面的过程称为主题提取(topicdistillation).本文中借助基于相似度的模型,我们对ITED系统的特征进行了措述:它完全凭借对链接信息的分析,就在主题提取方面取得了很大的改善;它通过关联规则挖掘的方法,克服了HITS算法中对于相似性的扭曲;它将主题发现的过程结合到主题提取中,使用户能够搜索到更多的相关主题;井且,它以可视化的方式显示主题,方便了用户根据自己的需要选择不同的拨索层次。 在将来,除了完善现有的系统功能而外,我们也试图再进一步改善对于相似度的定义,期望可以在一步中得到有代表性的结果,而不是经过若干次的迭代。

ITED 链接 主题提取 主题发现系统

熊方 王晓宇 郑骏 周傲英

复旦大学计算机科学与工程系,上海,200433 武汉大学软件工程国家重点实验室,武汉,430072

国内会议

第十九届全国数据库学术会议

郑州

中文

180-182

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)