会议专题

弱指导的统计隐含语义分析及其在跨语言信息检索中的应用

本文提出了一种语义聚类和扩展的新方法,称为有指导的统计隐含语义标引(SPLSI)算法.该算法能基于双语语料,通过机器学习来自动进行语义聚类,生成词间相似度矩阵.和以前的算法相比,SPLSI算法不仅在聚类意义上更加明确、降类的过程更容易控制,而且降低了时间和空间复杂度.基于SPLSI算法,实现了跨语言信息检索领域的三个系统:多语言文本分类,跨语言文本检索,跨语言关键词扩展.实验结果显示,在准确率、召回率、平均运算时间等多个评价指标中,SPLSI均优于以前的各种算法.

隐含语义标引 跨语言信息检索 文本分类 关键词扩展

金千里 赵军 徐波

中国科学院自动化所模式识别国家重点实验室(北京)

国内会议

全国第七届计算语言学联合学术会议

哈尔滨

中文

527-533

2003-08-01(万方平台首次上网日期,不代表论文的发表时间)