一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法
完整性是数据质量的一个重要维度,由于数据本身固有的不确定性、采集的随机性及不准确性,导致现实应用中产生了大量具有如下特点的数据集:1)数据规模庞大;2)数据往往是不完整、不准确的.因此将大规模数据集分段到不同的数据窗口中处理是数据处理的重要方法,但缺失数据估算的相关研究大都忽视了数据集的特点和窗口的应用,而且固定大小的数据窗口容易造成算法的准确性和性能受窗口大小及窗口内数据值分布的影响.假设数据满足一定的领域相关的约束,首先提出了一种新的基于时间的动态自适应数据窗口检测算法,并基于此窗口提出了一种改进的模糊k-均值聚类算法来进行不完整数据的缺失数据估算.实验表明较之其他算法,不仅能更适应数据集的特点,具有较好的性能,而且能够保证准确性.
缺失数据 模糊k-均值 数据窗口 数据质量 估算算法
廖再飞 吕新杰 罗雄飞 刘伟 王宏安
中国科学院软件研究所 北京 100190 中国科学院研究生院 北京 100049 中国科学院软件研究所 北京 100190
国内会议
南昌
中文
420-427
2009-10-15(万方平台首次上网日期,不代表论文的发表时间)