下一站在哪里?

摘要：

　　该文简要回顾了中文信息处理30年的主要成果，以及近20年来中文信息处理中的计算语言学研究的状况。该文分析了汉语与英语的主要差异，讨论了语言的共性与个性。该文表示了对于中文大规模语料的词性标注、树库建设的质疑。该文提出未来的中文语言资源建设的一些设想，期望一些新的尝试，提出以语义取代现有的句法，以深度标注取代现有的浅层标注，具体将包括标注的目标的定点化，内容的多样化，步骤的阶段化，标注人员的大众化、群体化。文章还提出了未来发展的关键点：技术的融合，人本计算。

关键词：中文信息处理语言数据资源语料标注计算机语言学

作者: 董振东董强郝长伶

作者单位: 中科院计算机与语言工程中心,北京 100091 Canada Keentime Inc.,蒙特利尔

会议类型: 国内会议

会议名称: 中国中文信息学会成立三十周年学术年会

会议地点: 北京

会议语种:中文

页码: 3-11

在线出版日期: 2011-12-03（万方平台首次上网日期，不代表论文的发表时间）

会议专题

下一站在哪里?