藏语语料库加工方法研究
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,然后针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,并利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。
藏语语料库 规范 词类 标记集 词典 分词标注
才让加 头旦才让 周毛先
青海师范大学藏文信息研究中心 青海 西宁 810008
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
14-16
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)