基于语料的哈萨克语词频统计的研究
词频统计在信息处理中发挥重要作用。哈萨克语作为新疆少数民族语言之一,词频统计作为自然语言处理的基础性课题成为需要迫切解决的问题,介绍了Zipf定律及哈萨克语词频统计之间的联系。首先将输入的连续哈萨克语字符串进行分词处理,输入分割后的哈萨克语词串,得到一个哈萨克语词典。词典中不重复的存储了每次处理中得到的哈语词组,以及这些词语出现的频率,并进行了哈萨克语的统计实验,实验结果说明了哈萨克语词频之间的内在联系,同时验证了哈萨克词频符合Zipf的幂律定律。
哈萨克语词频统计 幂律 齐普夫定则 频率
王花 古丽拉·阿东别克
新疆大学信息科学与工程学院,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
26-29
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)