一种基于词语匹配和TF-IDF方法的个性化推荐算法
个性化推荐技术可以有效提高机构知识库资源的曝光率和利用率,将现有的”用户主导行为”模式转变为”以知识驱动行为”模式,使得机构知识库用户能够更高效地获取学术信息.为此,本文在研究国内外已有的相似性度量方法的基础上,引入了不同权重词语对整体相似度有不同影响的思想,提出一种基于TF-IDF和词语匹配的文本相似度评价算法.通过分析DC(Dublin Core)元数据格式,筛选其中有效数据,计算特定词语在指定域中的权重并统计匹配次数,在文本长度归一化的基础上进行文本相似度计算.实验以手动建立文本测试集进行相似度计算,经统计分析,表明该算法能够对结构化离散文本数据的相似度进行合理计算,降低了机构知识库离散数据集在进行相似度计算时的向量维度,计算结果与实际数据吻合较好,具有可行性和实际应用价值.
个性化推荐 词语匹配 相似度评价 机构知识库 离散数据集
吴旭 郭芳毓 颉夏青
北京邮电大学图书馆 北京100876;北京邮电大学可信分布式计算与服务教育部重点实验室 北京100876 北京邮电大学可信分布式计算与服务教育部重点实验室 北京100876 北京邮电大学图书馆 北京100876
国内会议
西安
中文
169-176
2015-11-01(万方平台首次上网日期,不代表论文的发表时间)