会议专题

关键词抽取策略研究

关键词自动抽取是利用计算机从文献中提取出反映主题信息的词语,是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础.在基于统计的关键词抽取方法中,由于其特征单一,统计方面不全,很容易受到一些高频非关键词的干扰.而本文从多方面进行统计,考虑影响关键词识别的各个因素,通过词频、间距、词性、重要度多个特征的提取与结合,提出了一种新的关键词抽取方法.该方法通过对文本数据进行预处理、特征统计、权重计算,改善了过去基于统计方法的不足之处,同时加入的间距特征,也更加适用于一般的写作结构.最终和传统TF-IDF方法的对比实验结果中,该方法各方面性能都有所提高,表明本方法是有效可行的.

关键词 自动抽取 特征特区 写作结构

胡琪 郝晓燕 陈耀文

太原理工大学 计算机科学与技术学院,太原 030024

国内会议

第10届全国计算机支持的协同工作学术会议暨中国计算机学会协同计算专委年度工作会议

太原

中文

337-342

2015-08-28(万方平台首次上网日期,不代表论文的发表时间)