会议专题

基于Bootstrapping的领域多词串自动获取

在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器学习技术,自动获取多词串的领域特征。实验结果表明,该方法有较好的性能,可以大大减轻人工构建的代价。

文字处理 词汇获取 机器学习 领域多词串 自动获取

郑妍 肖桐 朱靖波

东北大学信息学院自然语言处理实验室 沈阳 110004

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

166-172

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)