一种处理生物数据库中数据冗余的方法

摘要：

本文主要是针对生物数据库中大量的数据冗余，给出了一个解决的框架，并试图基于这种框架给出一个解决的方法。主要思路就是对数据冗余先按照不同的蛋白质或核酸分成小的冗余块，并对每个冗余块先进行属性约简，然后针对冗余块，进行两层数据过滤处理，最后得到经过处理后的数据集。采用这种方法，不但能够有效处理生物数据库中的数据冗余，还从整体上减少数据处理的复杂度。但由于在相似过滤层中使用了比对算法进行相似度判定，造成运算量增大，因为要对生物序列两两进行比对，从总体上讲，有很大的复杂度.因此如何有效利用比对算法对相似过滤层相似度判定模型进行处理，将是本文继续研究的问题。

关键词：生物数据库数据冗余属性约简过滤处理比对算法

作者: 郭建奎张忠平朱扬勇

作者单位: 复旦大学计算机与信息技术系,上海,200433 复旦大学计算机与信息技术系,上海,200433;燕山大学计算机科学与工程系,秦皇岛,066004

会议类型: 国内会议

会议名称: 第二十一届中国数据库学术会议

会议地点: 厦门

会议语种:中文

页码: 542-544

在线出版日期: 2004-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种处理生物数据库中数据冗余的方法