基于相似度的多数据库分类

时间:2024-12-27 02:39:01 来源:作文网 作者:管理员

摘要：许多大型组织拥有大量的子公司，进行事务处理时会产生大量的多源数据库，然而现有的数据挖掘只致力于对单个数据库的挖掘，由此，提出了多数据库挖掘技术。为了减少寻找相关数据的检索代价，在对多数据库进行挖掘和分析之前，首先要对多数据库进行分类。由于多数据库中包含大量数据，现有的分类算法Gr✈eedyClass的时间复杂度可达到O（m4），所需代价非常大。由此提出了IdentifyCompleteclass算法用于对多数据库分类，其时间复杂度降为O（m3），并提出了相应的寻ศ找最优完全分类算法IdentifyBestClassification，实验证明改进后的算法有较高的运行效率。

关键词：多数据挖掘；多数据库分类；IdentifyCompleteclass算法；IdentifyBestClassification算法

中图分类号：TP311.13

然而现有独立于应用的多数据分类算法存在着一些问题。例如算法时间复杂度高[3，5⚥]，不一定能得到最优分类[3]，浪费存储空间[4]等。本文针对以上问题提出了可行性的改™进算法♋，使得对多数据库的分类更快、更准、更节省空间。

1 相关概念

文献[3-5]中对多数据库分类提出了相关理论概念并进行了理论证明，下面给出相关定义。

（2）若∨CDi∈classxα，∨CDj∈classyα（x≠y，1≤x，y≤n），则classxα∩classyα=且sim（Di，Dj）

上一篇：基于基准样本数据库的源代码相似性检测系统研究
下一篇：基于ASP的Web数据库访问

TAG标签：相似基于数据库

原文链接：https://www.zuowen.red/meiwen/1672740.html

热门排行：教你如何写建议书

同级分类

实用工具

在线起名在线测名大师起名