会议专题

基于语义相似度的Web社区主题发现

针对Web社区的真实性和有效性的自动评估的关键技术开展研究,在社区发现技术的基础之上,结合了信息检索技术以及语义信息,深入研究了社区主题词提取的方法。根据网页的DOM信息对页面进行处理与过滤,去除导航块、广告块;然后提取网页内的文本信息,取其词根,进行词频统计;接着根据TD*IPF公式,对网页集里的多个页面的主题词进行提取;最后还利用WordNet词典进行对词间语义关系的相关扩展.根据实验结果的分析表明,算法是可行的和有效的.

Web社区 主题词抽取 网页信息提取 WordNet

薛鸿鹄 高洁 刘秀德 杨楠

中国人民大学信息学院 北京 100872

国内会议

全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会

西安

中文

162-165

2008-04-12(万方平台首次上网日期,不代表论文的发表时间)