基于规则化词分布特征的无监督特征选取算法
无监督的聚类算法在中文网络信息处理中有着广泛的应用。由于存在大量的中文词语,适当的特征提取算法,可以降低计算资源消耗,提高聚类质量。但当前使用的无监督特征选取算法需要采用较多的参数,特征提取的结果与参数和数据集相关,具有随机性和过拟合的缺点。本文提出了基于规则化的词分布的无监督特征提取算法,通过对不同的规则化算法和不同数据集的实验结果表明,此算法简单、有效、稳定和普适。实验验证了不同聚类结果评价方法具有相似的变化特性,LTC向量化算法的结果总是优于其它向量化算法。
聚类算法 无监督特征 词分布 LTC向量化 提取算法
张爱华 荆继武 向继 秦钰
中国科学技术大学电子与信息工程系,合肥 230027;信息安全国家重点实验室(中国科学院研究生院),北京 100049 信息安全国家重点实验室(中国科学院研究生院),北京 100049
国内会议
青岛
中文
338-344
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)