会议专题

藏语分词词典的建立与设计研究

本研究针对藏语模式匹配法自动分词,收集了多部藏语字词典的所有词条及藏语标点符号,进行归并、词性标注、删减审定、最后形成了约10万词条的大型藏语分词词典。如此大型的词典,切分正确率固然好,但访问查询速度缓慢,分词效率极为低下,故结合藏语本身特点,提出了以藏语词条长度为主要依据,建立了多级索引词库,大大提高了分词效率。

藏语 自动分词 分词词典 索引 多级索引词库

姚徐 郭淑妮 于洪志

中国科学院 自动化研究所 100080 西北民族大学 中国民族信息技术研究院 兰州 730030

国内会议

第二届全国少数民族青年自然语言处理学术研讨会

合肥

中文

134-138

2008-10-07(万方平台首次上网日期,不代表论文的发表时间)