一种处理生物数据库中数据冗余的方法
本文主要是针对生物数据库中大量的数据冗余,给出了一个解决的框架,并试图基于这种框架给出一个解决的方法。主要思路就是对数据冗余先按照不同的蛋白质或核酸分成小的冗余块,并对每个冗余块先进行属性约简,然后针对冗余块,进行两层数据过滤处理,最后得到经过处理后的数据集。采用这种方法,不但能够有效处理生物数据库中的数据冗余,还从整体上减少数据处理的复杂度。 但由于在相似过滤层中使用了比对算法进行相似度判定,造成运算量增大,因为要对生物序列两两进行比对,从总体上讲,有很大的复杂度.因此如何有效利用比对算法对相似过滤层相似度判定模型进行处理,将是本文继续研究的问题。
生物数据库 数据冗余 属性约简 过滤处理 比对算法
郭建奎 张忠平 朱扬勇
复旦大学计算机与信息技术系,上海,200433 复旦大学计算机与信息技术系,上海,200433;燕山大学计算机科学与工程系,秦皇岛,066004
国内会议
厦门
中文
542-544
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)