会议专题

一种基于Bootstrapping的中文领域术语获取算法

目前,领域词典构建正成为自然语言处理广泛应用的重要技术难题.现有的词典构建方法必须依赖大规模语料库和人工预处理,其复杂性和高投入使得其操作较为困难.本文针对小规模语料提出一种无需人工标注语料库的无监督机器学习方法FWBSC.该方法采用频度对术语进行评分,独立于具体领域,移植性好.文中给出了该方法的详细描述.最后,根据实验结果,对该方法的性能进行评估.实验结果表明,从专业领域语料中学习的效果比开放的搜狗实验室互联网语料库要好.

Bootstrapping Field Words Unsupervised machine learning Small quantity of unannotated training texts

潘霖 张雪英 吉根林

南京师范大学计算机科学与技术学院 南京 210097 南京师范大学虚拟地理环境教育部重点实验室 南京 210097

国内会议

中国通信学会第六届学术年会

深圳

中文

112-116

2009-11-01(万方平台首次上网日期,不代表论文的发表时间)