可比语料聚类中不同文本表示方法的比较研究
本文通过可比语料聚类实验以比较三种不同的文本表示方法,分别是空间向量模型(VSM),潜在语义索引(LSI),深度学习(DL).将可比语料中的源语言文本翻译为目标语言文本,然后和可比语料中的目标语言文本归为一个文本集合中.分别利用VSM,LSI和DL,三种方法来表示文本并进行聚类.实验结果显示:根据聚类得到测评数据中净相似度与可识别的类簇数量,用深度学习表示文本的方法比其他的几种表示方法聚类效果要好.三种方法的实验数据表明,新文本集合为英语的语料比新文本集合为汉语的聚类效果要好.基于LSI文本表示的方法随着文本表示维度的增加,识别出的类簇数量会逐渐减小并最终趋于稳定.
可比语料聚类 文本表示 深度学习 类簇数量
马舒天 章成志
南京理工大学经济管理学院信息管理系,南京 210094 南京理工大学经济管理学院信息管理系,南京 210094;江苏省数据工程与知识服务重点实验室(南京大学),南京 210093
国内会议
第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛
北京
中文
1-14
2015-10-01(万方平台首次上网日期,不代表论文的发表时间)