会议专题

中文分词技术研究综述

  [目的]梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。[文献范围]使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。[方法]归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。[结果]使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。[局限]没有深入对比分析中文分词的无监督学习方法。[结论]虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。

中文分词 分词算法 多准则学习 联合模型

唐琳 郭崇慧 陈静锋

大连理工大学系统工程研究所 大连116024

国内会议

第二届数据分析与知识发现学术研讨会

兰州

中文

1-17

2019-07-10(万方平台首次上网日期,不代表论文的发表时间)