基于近似词汇样式匹配之主题式文件分群
在信息爆炸的时代,每天都有数以万计的文本产生,本研究的目的是将文件依据主题聚集成群,方便使用者阅读,可应用于新闻或入口网站的管理,将主题相似的新闻或信息呈现在一起。本研究以近似词汇样式匹配(Approximate Word Pattem Matching)为特征抽取(Feature Extraction),采纳词汇样式距离信息于频率测量,建立近似词汇样式加权频率与idf(pwf-idf)的向量空间模型。为了有效分群,我们以档与档之间的同义联结(synonymityassociation)当做相似度,并提出一个简易而有效的递归合并高相似度数据的聚集方法。
近似词汇 样式匹配 特征抽取 向量空间模型 同义联结
杨燕珠 王千豪
大同大学信息经营研究所
国内会议
北京
中文
388-393
2007-08-18(万方平台首次上网日期,不代表论文的发表时间)