基于相似度的多数据库分类

时间:2024-12-27 02:39:01 来源:作文网 作者:管理员

摘 要:许多大型组织拥有大量的子公司,进行事务处理时会产生大量的多源数据库,然而现有的数据挖掘只致力于对单个数据库的挖掘,由此,提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价,在对多数据库进行挖掘和分析之前,首先要对多数据库进行分类。由于多数据库中包含大量数据,现有的分类算法Gr✈eedyClass的时间复杂度可达到O(m4),所需代价非常大。由此提出了IdentifyCompleteclass算法用于对多数据库分类,其时间复杂度降为O(m3),并提出了相应的寻ศ找最优完全分类算法IdentifyBestClassification,实验证明改进后的算法有较高的运行效率。

关键词:多数据挖掘;多数据库分类;IdentifyCompleteclass算法;IdentifyBestClassification算法

中图分类号:TP311.13

然而现有独立于应用的多数据分类算法存在着一些问题。例如算法时间复杂度高[3,5⚥],不一定能得到最优分类[3],浪费存储空间[4]等。本文针对以上问题提出了可行性的改™进算法♋,使得对多数据库的分类更快、更准、更节省空间。

1 相关概念

文献[3-5]中对多数据库分类提出了相关理论概念并进行了理论证明,下面给出相关定义。

(2)若∨CDi∈classxα,∨CDj∈classyα(x≠y,1≤x,y≤n),则classxα∩classyα=且sim(Di,Dj)


热门排行: 教你如何写建议书