基于栏目的藏文网页文本自动分类方法
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
藏文网页文本 信息处理 特征提取 文本分类
胥桂仙 向春丞 翁彧 赵小兵 杨国胜
中央民族大学信息工程学院,北京100081 国家语言资源监测与研究中心少数民族语言分中心,北京 100081 中央民族大学信息工程学院,北京100081
国内会议
呼和浩特
中文
20-23
2011-07-29(万方平台首次上网日期,不代表论文的发表时间)