会议专题

基于语言网络的关键词抽取

关键词抽取在文本聚类、文本分类、文本摘要等许多文本处理领域有着重要作用。本文介绍了文本语言网络的概念和三种类型的语言网络;进而提出了一种基于语言网络和Pagerank的关键词抽取算法:首先,将文本表示为一个语义网络,然后应用PageRank决定文本语义网络中词语的重要度,最后选择前N个重要词语作为文档的关键词。在对CISTR学术论文库抽取关键词的实验中,证明了算法的有效性。

语言网络 关键词抽取 PageRank

刘建毅 王菁华 王枞

北京邮电大学,北京 100876 北京师范大学,北京 100875 北京邮电大学,北京 100876

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

702-706

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)