粗集方法在KDD系统中的应用与研究

时间:2024-11-10 09:18:58 来源:作文网 作者:管理员
粗集方法在KDD系统中的应用与研究 粗集方法在KDD系统中的应用与研究 信息技术论文 更新:2006-4-8 阅读: 粗集方法在KDD系统中的应用与研究

粗集方法在KDD系统中的应用与研究

周波

(西安电子科技大学多媒体研究所 西安 710086)

【摘 要】本文论述了粗集方法性质及特点,提出了粗集方法在KDD系统中的应用模型,同时给出了应用这一模型对一个数据库实例进行数据挖掘的过程。另外,从精确性、鲁棒性等方面对KDD系统中的粗集方法的适用范围进行了分析。

【关键词】粗集 KDD 数据挖掘

Application and Research of Rough Set in KDD System

Zhou bo

Abstract: In this paper, we discuss the character of rough set, and put forward the application model of rough set in KDD system. Also, by an example ,the advantage and disadvantage of rough set in KDD system is analysed in detail.

Key Word: Rough Set KDD Data Mining

1.前

数据库中的知识发现技术(Knowledge Discovery in Database, KDD)是随着数据库和人工智能的发展而产生的,它是“从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的非平凡过程”。通过KDD,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。KDD系统中的知识学习阶段被称为“数据挖掘”(Data Mining,DM),它的算法是KDD系统的核心。近年来,粗集理论(Rough Set Theory)开始逐渐应用到DM的领域中,在对大型数据库中不完整数据进行分析和学习方面取得了显著的效果,因此,以粗集为代表的集合论方法是今后KDD技术的一个主要研究方向。

2. KDD系统中粗集方法的基本特征

粗集(Rough Set)理论和模糊集理论都是针对不确定性问题提出的,它们既相互独立,又相互补充。粗集方法与传统的统计及模糊集方法不同的是:后者需要依赖先验知识对不确定性的定量描述,如统计分析中的先验概率、模糊集理论中的模糊度等等;而前者只依赖数据内部的知识,用数据之间的近似来表示知识的不确定性。用粗集来处理不确定性问题的最大优点在于,它不需要关Ⓐ于数据的预先或附加的信息,而且容易掌握和使用。粗集中不精确的要领包含下近似和上近似两个定义,前者指的是所有对象都一定被包含,后者指的是所有对象可能被包含。

粗集的一些理论和方法可用来从数据库中发现分类规则。其基本思想是,将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。

粗集理论中的信息系统可用一个四元组来表示:S={R,A,V,f}。其中R是一个非空集合,表示数据库中的所有记录(Record);A表示数据库中的全部属性;V是属性值组成的集合;f是属性和记录的函数,f的值确定记录e关于属性a的取值。对于属性集A中的任意一个属性a,如果记录 和记录 ⌚对于属性a的取值相同,我们称 基于属性集相等。基于某个属性集A的所有等价记录的集合,被定义为等价类。属于同一等价类的记录归为一类,此分类称为R基于属性集A的划分,表示为

3.应用粗集方法进行数据挖掘的过程

我们以一个具体的数据库的作为实例(如图1所示),使用粗集的方法对其中的知识进行分析和预测。为了说明KDD系统中粗集方法的实质,我们简化了问题域,只取出“汽车数据库”中的10个记录,而且只分析三个字段(Power, Turbo, Weight),数据挖掘的目标模 ت式定为:“分析汽车的‘Power’和 ‘Turbo’特征同‘ Weight’特征之间的关系”。

No.

Power

Turbo

Weight

1

HIGH

YES

MED

2

LOW

NO

LIGHT

3

MEDIUM

YES

LIGHT

4

HIGH

NO

LIGHT

5

HIGH

YES

MED

6

MEDIUM

YES

LIGHT

7

LOW

NO

HEAVY

8

HIGH

NO`

HEAVY

9

HIGH

YES

MED

10

LOW

NO

HEAVY

图1 汽车特征数据库(部分)

在这个数据库中,R={1,2,3,4,5,6

    ½
    热门排行: 教你如何写建议书