藏语语料库TEI标记规范探讨

在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。
藏语信息处理 语料库 TEI标记 信息标记
扎西加 高定国
西藏大学工学院计算机科学系,西藏拉萨 850000 西藏大学藏文信息技术研究中心,西藏拉萨 850000
国内会议
呼和浩特
中文
66-70,81
2011-07-29(万方平台首次上网日期,不代表论文的发表时间)