基于二元切分和模糊集的垃圾邮件中组合歧义词识别算法
本文给出了一种基于逆向最大二元切分和模糊集的中文垃圾邮件中组合歧义字符串的识别算法:根据词在句子中出现的概率,训练生成新的核心字典.针对单一邮件,运用逆向最大匹配生成可能字符串,提取字串附近一个阈值范围内的字组成论域,通过改进的二元切分法提取可能存在的词,在论域上定义模糊集进行描述,构造隶属函数并计算贴近度,判别是否属于字符串.
二元切分词 模糊集 垃圾邮件 字符串
郭溢沫
天津师范大学计算机系,300074
国内会议
济南
中文
1202-1205
2005-09-01(万方平台首次上网日期,不代表论文的发表时间)