会议专题

下一站在哪里?

  该文简要回顾了中文信息处理30年的主要成果,以及近20年来中文信息处理中的计算语言学研究的状况。该文分析了汉语与英语的主要差异,讨论了语言的共性与个性。该文表示了对于中文大规模语料的词性标注、树库建设的质疑。该文提出未来的中文语言资源建设的一些设想,期望一些新的尝试,提出以语义取代现有的句法,以深度标注取代现有的浅层标注,具体将包括标注的目标的定点化,内容的多样化,步骤的阶段化,标注人员的大众化、群体化。文章还提出了未来发展的关键点:技术的融合,人本计算。

中文信息处理 语言数据资源 语料标注 计算机语言学

董振东 董强 郝长伶

中科院计算机与语言工程中心,北京 100091 Canada Keentime Inc.,蒙特利尔

国内会议

中国中文信息学会成立三十周年学术年会

北京

中文

3-11

2011-12-03(万方平台首次上网日期,不代表论文的发表时间)