基于上下文多元信息的文档相似度计算研究
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%~18.49%和11.96%~15.35%在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上。
文档相似度计算 上下文 多元信息 相似函数 知识获取 特征词
于凤 郑德权 赵铁军 李生
哈尔滨商业大学,计算机与信息工程学院,黑龙江,哈尔滨,150076 哈尔滨商业大学,计算机与信息工程学院,黑龙江,哈尔滨,150076;哈尔滨工业大学,教育部-微软语言语音重点实验室,黑龙江,哈尔滨,150001 哈尔滨工业大学,教育部-微软语言语音重点实验室,黑龙江,哈尔滨,150001
国内会议
第十六届中国神经网络大会(CNNC2006)暨首届中国人工免疫系统专题会议(CAISC06)
哈尔滨
中文
397-402
2006-08-05(万方平台首次上网日期,不代表论文的发表时间)