会议专题

一类新的快速模糊聚类分析算法

目前信息模板的抽取是中文信息自动抽取中的一个主要困难.本文提出将文本中每个子句都看作样本,利用模糊聚类分析将文本中的句子进行分类,从而完成文本中信息的分类,最终实现信息模板的自动形成.通过对常用的基于模糊等价关系的聚类分析算法的分析,我们发现它们的复杂度都过大,很难实用于中文信息中大文本数据的处理.因此我们提出了一类新的快速模糊聚类算法,它具有准线性的速度和较高的聚类精度.

中文信息自动提取 模糊聚类分析 普通聚类分析

吴思 朱珍民 李锦涛 钱跃良

中国科学院计算所数字化实验室,北京,100080 中国科学院计算所数字化实验室,北京,100080;湘潭大学信息工程学院,湖南湘潭,411105

国内会议

中国科学院计算技术研究所第七届计算机科学与技术研究生学术讨论会

四川广元

中文

15-19

2002-07-13(万方平台首次上网日期,不代表论文的发表时间)