语料采集标准研究
语料采集是一个庞杂的工作。目前,语料的采集还没有统一的标准,即对于采集什么样的语料、怎样采集语料等问题还没有形成规范,通常的做法是采集能采集到的语料。为了给汉语中介语语料库的语料采集工作提供借鉴性的参考,我们主要从语料采集原则、语料采集渠道、语料采集内容与方法三个方面进行了研究。语料采集原则包括真实性、自然性、平衡性、代表性、多样性、丰富性、连续性、系统性。对于汉语中介语语料库来说,无论是书面语语料、口语语料还是多模态语料,最好的采集渠道就是学校、培训机构等教育场所。至于内容与方法,书面语语料、口语语料、多模态语料各自有自己的特点,但总的原则是自然产出的成段表达。
语料采集 标准 汉语中介语语料库 语料库建设
杨星星
北京语言大学
国内会议
南京
中文
69-74
2018-08-10(万方平台首次上网日期,不代表论文的发表时间)