会议专题

一种基于最小风险贝叶斯决策的数据清洗策略

目前,在数据仓库的数据清洗过程中,数据的不完全问题,并不受重视。现有的处理方法之一是直接去掉带缺失项的记录,这一方法虽然筒单,也使我们失去了许多有用的信息,甚至会使基于该数据仓库做出不完全正确甚至是错误的决策。本文正是基于此提出了在数据不完全情况下基于最小风险的贝叶斯决策理论用干数据仓库中数据清洗过程,简述了利用此决策理论对缺失项的最小损失替代值的计算方法,尤其是错判带来的损失相差悬殊时,基于该方法的替代值的算法效果尤佳。进一步的研究工作要考虑在多个数据项缺失情况下利用数据库已有的记录,获得贝叶斯算法本身要求的已知条件,摆脱领域知识的限制,应用于一般的数据仓库中。

最小风险 贝叶斯决策 数据清洗策略

高淑娟 鲍玉斌 江志纲 王大玲 于戈

东北大学信息学院软件研究所,沈阳,110004

国内会议

第十九届全国数据库学术会议

郑州

中文

94-96

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)