基于感知器的中文分词增量训练方法研究
文本提出了一种基于感知器的中文分词增量训练方法.该方法可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题.实验表明,增量训练可以有效提升领域适应性,达到与传统数据混合相类似的效果.同时本文方法模型占用空间小,训练时间快,可以快速训练获得目标领域的模型.
中文分词 增量训练 感知器 领域适应性
韩冰 刘一佳 车万翔 刘挺
哈尔滨工业大学计算机学院社会计算与信息检索研究中心 哈尔滨 150001
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-9
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)