基于Bootstrapping的领域词汇自动获取
领域知识获取是文本处理技术中的一个瓶颈问题,本文提出一种领域词汇的自动获取方法.该方法采用Bootstrapping的机器学习技术,从大规模无标注真实语料中,自动获取领域词汇知识.该方法独立于具体领域,移植性好.文中给出了该方法的详细描述.最后,根据实验结果,对该方法的性能进行评估.实验结果显示,从人民日报语料中学习效果比专业领域语料好.
机器学习 主题识别 词汇获取 文本处理
陈文亮 朱靖波 姚天顺 张宇新
自然语言处理实验室,网络学院;东北大学信息学院计算机软件与理论研究所(辽宁沈阳)
国内会议
哈尔滨
中文
67-72
2003-08-01(万方平台首次上网日期,不代表论文的发表时间)