基于语言网络的关键词抽取
关键词抽取在文本聚类、文本分类、文本摘要等许多文本处理领域有着重要作用。本文介绍了文本语言网络的概念和三种类型的语言网络;进而提出了一种基于语言网络和Pagerank的关键词抽取算法:首先,将文本表示为一个语义网络,然后应用PageRank决定文本语义网络中词语的重要度,最后选择前N个重要词语作为文档的关键词。在对CISTR学术论文库抽取关键词的实验中,证明了算法的有效性。
语言网络 关键词抽取 PageRank
刘建毅 王菁华 王枞
北京邮电大学,北京 100876 北京师范大学,北京 100875 北京邮电大学,北京 100876
国内会议
苏州
中文
702-706
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)