会议专题

基于多阶段的中文人名消歧聚类技术的研究

人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统性能的影响做了比较分析。本文主要介绍三阶段聚类体系。在第一阶段,系统首先使用启发式规则对文档进行初步聚类;在第二阶段,系统使用局部上下文特征对文档进行再次聚类;在第三阶段,使用全局上下文特征对文档进行最后一次聚类。实验结果表明,本文提出的聚类策略的系统性能(B-cubed F值)比仅凝聚型层次聚类的系统的性能(B-cubedF值)高出2.41%。

人名消歧 聚类算法 多阶段聚类

丁海波 肖桐 朱靖波

东北大学自然语言处理实验室,辽宁沈阳,110004

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

316-324

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)