会议专题

分布式环境下的文档相似度研究与实现

针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,本文以非结构化文档为研究对象,提出一种基于HADOOP 分布式环境,结合Hive数据处理平台和POSTGRESQL 关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL 语言可有效简化分布式数据处理复杂性但实时性有待改进。

HADOOP Hive 相似度 非结构化文档

赵华茗

中国科学院国家科学图书馆 北京 100190

国内会议

2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会

银川

中文

1-10

2011-05-23(万方平台首次上网日期,不代表论文的发表时间)