基于联合权重的多文档关键词抽取技术

本文对内容相近的多个文档抽取关键词,考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,提出了一种计算词语权重的方法ATF*PDF。此方法能计算词语在多文档中的权重。首先对文档词语进行权重计算选取候选关键词,然后结合词语之间的语义相似度进行关键词抽取。实验表明,此方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率,召回率和F值均有较大提高。
文字处理 关键词提取 语义分析 数理语言学 联合权重
杨洁 季铎 蔡东风 白宇
沈阳航空工业学院 自然语言处理研究室 沈阳 110034
国内会议
太原
中文
413-419
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)