分布式环境下的文档相似度研究与实现

摘要：

针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题，本文以非结构化文档为研究对象，提出一种基于HADOOP 分布式环境，结合Hive数据处理平台和POSTGRESQL 关系型数据库的文档相似度计算方法，并给出关键技术思路、具体实现步骤和实证研究，通过研究证明Hive SQL 语言可有效简化分布式数据处理复杂性但实时性有待改进。

关键词： HADOOP Hive 相似度非结构化文档

作者: 赵华茗

作者单位: 中国科学院国家科学图书馆北京 100190

会议类型: 国内会议

会议名称: 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会

会议地点: 银川

会议语种:中文

页码: 1-10

在线出版日期: 2011-05-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

分布式环境下的文档相似度研究与实现