藏语分词词典的建立与设计研究
本研究针对藏语模式匹配法自动分词,收集了多部藏语字词典的所有词条及藏语标点符号,进行归并、词性标注、删减审定、最后形成了约10万词条的大型藏语分词词典。如此大型的词典,切分正确率固然好,但访问查询速度缓慢,分词效率极为低下,故结合藏语本身特点,提出了以藏语词条长度为主要依据,建立了多级索引词库,大大提高了分词效率。
藏语 自动分词 分词词典 索引 多级索引词库
姚徐 郭淑妮 于洪志
中国科学院 自动化研究所 100080 西北民族大学 中国民族信息技术研究院 兰州 730030
国内会议
合肥
中文
134-138
2008-10-07(万方平台首次上网日期,不代表论文的发表时间)