基于信息增益的中文术语抽取
术语具有特定的领域特征,即在专门的领域里大量出现,而在通用领域内出现的机率较小.基于此特性,本文提出了基于信息增益的术语抽取算法.将术语抽取的过程看成是文本分类的特征选取过程.通过对比专业领域与通用领域的文档,抽取出两类文档中信息增益较大的特征词作为术语.实验表明,该方法取得了令人满意的结果.
对外汉语教学 专业术语 抽取算法 信息增益
叶秋永 吴华琼 宋继华
北京师范大学 信息科学与技术学院 北京 100875
国内会议
烟台
中文
459-465
2010-07-19(万方平台首次上网日期,不代表论文的发表时间)