会议专题

基于栏目的藏文网页文本自动分类方法

  该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。

藏文网页文本 信息处理 特征提取 文本分类

胥桂仙 向春丞 翁彧 赵小兵 杨国胜

中央民族大学信息工程学院,北京100081 国家语言资源监测与研究中心少数民族语言分中心,北京 100081 中央民族大学信息工程学院,北京100081

国内会议

第十三届中国少数民族语言文字信息处理学术研讨会

呼和浩特

中文

20-23

2011-07-29(万方平台首次上网日期,不代表论文的发表时间)