会议专题

网络情报监测中的关键词提取方法研究

为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法.该算法采用词语TfDf指标的离散系数公式来剔除噪音词,接着构建基于词偏度、词语位置权重信息和词频—逆向文本频率的评估函数来度量关键词的重要性.实验结果表明该算法优于传统方法,在网络情报监测中具有广泛的应用价值.

网络情报监测 关键词提取 词语过滤 逆向文本频率 多级统计特征

罗繁明 杨海深

广东省社会科学院信息中心 广州 510610

国内会议

中国社会科学情报学会2012年学术年会

合肥

中文

23-33

2012-09-10(万方平台首次上网日期,不代表论文的发表时间)