班智达藏文语料切分词典的建立与算法研究
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。本文结合《藏文语料自动标注》的开发经验,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。
藏语语料库 切分 自动标注 索引 语法信息 语言信息处理
才藏太
青海师范大学藏文信息与机器翻译省级重点实验室 青海 西宁 810008
国内会议
合肥
中文
103-108
2008-10-07(万方平台首次上网日期,不代表论文的发表时间)