文本聚类中基于知网的特征抽取方法

摘要：

本文将语义分析引入到文本聚类的任务中，提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象，从全文的角度考察词的语义，结合相关概念场，将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明，经过词义消歧后，将文本中的词语映射为知网中的义原，显著地降低了特征空间的维数，使聚类宏平均F1值提高了6个百分点。

关键词：知网特征抽取文本聚类

作者: 王智超季铎蔡东风张桂平

作者单位: 沈阳航空工业学院自然语言处理研究室,辽宁沈阳 110034

会议类型: 国内会议

会议名称: 第三届全国信息检索与内容安全学术会议

会议地点: 苏州

会议语种:中文

页码: 158-164

在线出版日期: 2007-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

文本聚类中基于知网的特征抽取方法