会议专题

基于信息增益的中文术语抽取

术语具有特定的领域特征,即在专门的领域里大量出现,而在通用领域内出现的机率较小.基于此特性,本文提出了基于信息增益的术语抽取算法.将术语抽取的过程看成是文本分类的特征选取过程.通过对比专业领域与通用领域的文档,抽取出两类文档中信息增益较大的特征词作为术语.实验表明,该方法取得了令人满意的结果.

对外汉语教学 专业术语 抽取算法 信息增益

叶秋永 吴华琼 宋继华

北京师范大学 信息科学与技术学院 北京 100875

国内会议

第七届中文电化教学国际研讨会

烟台

中文

459-465

2010-07-19(万方平台首次上网日期,不代表论文的发表时间)