基于未标注语料的领域词汇自动抽取
领域词汇集中体现和承载了一个学科领域的核心知识,领域词汇的抽取是很多自然语言处理应用的一个起始点。文中提出了一种基于未标注语科的领域词汇自动抽取方法。首先计算了词语间的结合紧密度,然后统计词汇特征,最后使用SVM分类的方法自动获取领域词汇。对公安领域语料进行实验,该方法抽取的前3000个词语的准确率达到了70%。
领域词汇 未标注语料 SVM分类 自动抽取
肖诗斌 乔春庚 李渝勤 施水才
北京信息科技大学中文信息研究中心,北京 100101
国内会议
苏州
中文
589-595
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)