会议专题

一种基于改进卡方统计量的藏文文本表示方法

藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度,或者只是简单的计算相互问的共现,造成了语义的损失,很难准确的表示文档。本文首先提取文本中的高TFIDF值的部分词项作为对比词项,然后对藏文文本进行断句处理,以每个句子作为一个语境主题,以卡方统计量来计算文本中词项于对比词项的关联程度,结合信息检索领域的经典模型一向量空间模型,提出了一种新颖的文本表示方法Chi—T—VSM以解决藏文文本表示问题。实验结果表明,这种方法能够比传统的VSM方法更准确的表示藏文文本。

徐涛 于洪志 加羊吉

西北民族大学国家民委一教 育部中国民族语言文字信 息技术重点实验室 西北民族大学国家民委一教育部中国民族语言文字信息技术重点实验室

国内会议

第六届全国青年计算语言学会议

上海

中文

143-148

2012-11-17(万方平台首次上网日期,不代表论文的发表时间)