会议专题

中文篇章零元素语料库构建

  针对中文零指代的问题,从篇章视角进行了理论分析,并完成中文篇章零元素语料库(Chinese DiscourseZero Corpus,CDZC)的构建工作。首先,对已有的理论研究以及语料资源整理分析,探究篇章层面中文零元素语料库标注的必要性。然后,在此基础上采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式,完成CDZC 语料库的构建工作。最后,对该语料库进行一系列详细的统计分析。结果表明,CDZC 能够充分反应出中文零元素省略的语言特点,为相关研究提供语料资源支持。

中文零元素 篇章视角 语料库构建 中文篇章零元素语料库

盛晨 孔芳 周国栋

苏州大学计算机科学与技术学院自然语言处理实验室,苏州 215006

国际会议

2018自然语言处理与中文计算国际会议(NLPCC2018)

呼和浩特

中文

1-8

2018-08-26(万方平台首次上网日期,不代表论文的发表时间)