会议专题

基于多策略的维吾尔文网页识别方法

经过对大量维吾尔文网站的调查与分析,本文从多语种混合网页中针对维吾尔文网页识别进行了研究.这对维吾尔语信息处理工作起着关键的作用.首先本文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理.之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(VectorSpace Model).使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了本文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验.实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram.所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性.

维吾尔文 网页识别 N-Gram方法 常用词 向量空间模型

阿力木·木拉提 艾孜尔古丽 杨雅婷 李晓

中国科学院新疆理化技术研究所,乌鲁木齐830011;新疆民族语音语言信息处理重点实验室,乌鲁木齐830011;中国科学院大学,北京100049 新疆师范大学计算机科学技术学院,乌鲁木齐830054 中国科学院新疆理化技术研究所,乌鲁木齐830011;新疆民族语音语言信息处理重点实验室,乌鲁木齐830011

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-9

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)