文本聚类中基于知网的特征抽取方法
本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后,将文本中的词语映射为知网中的义原,显著地降低了特征空间的维数,使聚类宏平均F1值提高了6个百分点。
知网 特征抽取 文本聚类
王智超 季铎 蔡东风 张桂平
沈阳航空工业学院自然语言处理研究室,辽宁 沈阳 110034
国内会议
苏州
中文
158-164
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)