基于近似词汇样式匹配之主题式文件分群

摘要：

在信息爆炸的时代,每天都有数以万计的文本产生,本研究的目的是将文件依据主题聚集成群,方便使用者阅读,可应用于新闻或入口网站的管理，将主题相似的新闻或信息呈现在一起。本研究以近似词汇样式匹配(Approximate Word Pattem Matching)为特征抽取(Feature Extraction),采纳词汇样式距离信息于频率测量,建立近似词汇样式加权频率与idf(pwf-idf)的向量空间模型。为了有效分群,我们以档与档之间的同义联结(synonymityassociation)当做相似度,并提出一个简易而有效的递归合并高相似度数据的聚集方法。

关键词：近似词汇样式匹配特征抽取向量空间模型同义联结

作者: 杨燕珠王千豪

作者单位: 大同大学信息经营研究所

会议类型: 国内会议

会议名称: 第13届海峡两岸信息管理发展与策略学术研讨会

会议地点: 北京

会议语种:中文

页码: 388-393

在线出版日期: 2007-08-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于近似词汇样式匹配之主题式文件分群