会议专题

基于近似词汇样式匹配之主题式文件分群

在信息爆炸的时代,每天都有数以万计的文本产生,本研究的目的是将文件依据主题聚集成群,方便使用者阅读,可应用于新闻或入口网站的管理,将主题相似的新闻或信息呈现在一起。本研究以近似词汇样式匹配(Approximate Word Pattem Matching)为特征抽取(Feature Extraction),采纳词汇样式距离信息于频率测量,建立近似词汇样式加权频率与idf(pwf-idf)的向量空间模型。为了有效分群,我们以档与档之间的同义联结(synonymityassociation)当做相似度,并提出一个简易而有效的递归合并高相似度数据的聚集方法。

近似词汇 样式匹配 特征抽取 向量空间模型 同义联结

杨燕珠 王千豪

大同大学信息经营研究所

国内会议

第13届海峡两岸信息管理发展与策略学术研讨会

北京

中文

388-393

2007-08-18(万方平台首次上网日期,不代表论文的发表时间)