数据挖掘技术分析及其应用评价
摘 要:本文在审视数据挖掘技术发展的重要性基础上,通过了解数据挖掘的概念,进而对现时所用的十三种数据挖掘技术依次进行分析。最后,通过评分表方式对数据挖掘技术多种进行了评价,并对研究结果进行了思考。
关键词:数据挖掘;技术分析;应用评价
1 前言
随着互联网技术的飞速发展,让世界之内企业与企业之间的沟通、人与人之间的沟通越来越紧密,从而让世界经济、贸易、政治、教育等多种领域จ业务的发展都开始受到由先进互联网技术引领的大数据时代的影响。不论是行走在华尔街大厦中放声大笑的金融大鳄,还是在华尔街高楼下阴暗街角流浪的乞丐,他们都会在同一时间、同一地点留下非常多的信息。而这些信息如何获取、这些数据如何挖掘已经开始成为当代信息收集者所要思考的重要问题。通过利用数据挖掘工具从日常活动、工作、行为当中收集信息、汇总信息、整理信息、筛选信息、分析信息,从而达到获取真正有用信息的整个过程。
2 数据挖掘技术分析研究
2.1 数据挖掘的概念
2.2 统计技术
统计技术是在学科范围内运用最广的一种数据挖掘技术,由于其易操作、易分析、易掌握让这种技术的普及化不断加深。其具体的运用方法如下:其主要通过建立假定情况下的数据模型方式,然后依据这种假定的分布以及其概率模型进行数据挖掘。
2.3 关联规则
数量与数量之间都是存在关联的,有些是线性的、有些是非线性的。如果说两个变量或者多个变量之间存在着这样一些关系,我们就称之为关联或者其具有规律性。通过分析管理的数据和他们背后之间的联系,能够充分实现透过表面看本质,在把握表面信息同时放长线钓大鱼发觉问题背后潜在的信息,从而实现将这种数据挖掘技术切切实实的用到实际当中。
2.4基于历史的分析
这种方法也可以简称为经验的方法❣,它是一种根据前人所研究的结论、所收集数据的方式、所获得信息的来ฆ源再重新整个对同一个问题或者其他领域可以适用的问题进行研究。通过这种方法能够大大的节约现时工作量和时间,并且能够通过分析、研究收集来的数据加速项目进展。使用这种方法通常寻在着的主要的问题是这些历史数据是否能成为这种问题分析的依据。
2.5 遗传算法
这种方法的产生是一种基于进化理论的方法,它假设这些数据之间能够相互遗传、相互复制、相互影响、相互变化,并且结合现有分析方法选择能够相互遗传、相互复制、影响、变化的分析方法进行解决问题的方式。这种方法产生的依据是:这些方法和数据能够根据自然规律的影响产生优胜劣汰、适者生存,从而能够让当前筛选出来的样本中拥有最为关键的数据和要素,最终能够提高整个样本的适配比率,让研究的整个过程更具有效率。
2.6 聚集检测
这种方法是将具有类似性质、类似变动规律、类似形态的种种数据依据其固有的系列特征进行整体分类,并向这些由多种具有同种规律的数据分为一类,简称为聚集。这些被选择的每一个聚类,数量一般都是要保持一定比率的,从而保持每个样本之间的可比性。最后,通过比较每一个聚集之间的数据差异就能够找出最终研究的目标,从而解决了成本和时间问题。
2.7 ฬ连接分析
图论是这种连接分析方法的核心思想,它旨为这种方式找到最为可靠、最为便利的方法,而不是一直在追求更为完美的方法,而是适可而止去进行下一步的规划。通常有些方法看来是不是很完美的,但是却能够让问题得以解决。连接分析就是一直在试图寻找这样一种看似不完美却能够将问题解决的方法。
2.8 决策树分析法
决策树分析法是一种定性的方法,其通过将整个问题比喻成一颗大树上的枝杈,然后将所有问题的解决比作这个大树能够健康、茁壮的成长。例如,现在有一个问题解决有三种途径,而每种途径有存在三种方法。然后对每条线路中给予成功几率的赋值,然后对总体成功几率进行相乘得到最后的结果,选择最大几率的方法作为这个问题的能够最终得到解决的方法。
2.9 神经网络分析法
神经分析法在其结构上是将一个神经的网络组成部分划分成输入层和输出层以及隐含层三个部分。输入层当中每个节点都会对应相应预测的变量。从而,让输出层节点能够对应多个目标的变量,从而作为这些问题解决的多种方法。然后,在输入层与输出层两者之间设计一个隐含层,将其作为一种潜在影响因素,也可以说是误差变量、影响变量。这个隐含层的总层数以及每层与每层交点之间的个数就会决定整个神经网络总体复杂的程度。
2.10粗糙和模糊集方法
这两种数据挖掘的方法都是为了让数据所收集的范围更加广泛,通过引入一种模糊性的边界,让整个数据含量更加的充分, 从而让整个研究过程更加具有科学性。其具体设计的方法主要就是引入了数据挖掘分类系统,从而让所有数据样本成为等价的,然后在大范围内进行随即筛选,为总体目标的证明和解释提供有力的依据。
2.11 回归分析法
回归分析法可以分为:一元、二元的线性回归方法和多元线性回归方法。这一分析方法多用于解决具有明确数量关系、数量影响大小比较具有规律的一些问题的研究。这种数据方法也是在所有领域的实证研究当中都会用到的,现阶段比较规范性的实证分析都会采用线性回归和稳健性检验的方式,从而证明数据之间的关系假设的存在。这种方法易于操作,例如:最简单的线性回归模型就是大众从小学学到的一元一次方程。 2.12 差别分析
差别分析的研究目的通常是为了发现、探索数据当中存在的一些异常的情况,例如噪音的数据,欺诈的数据等等这些异常的数据,通过对立面问题研究解决正面问题。
2.13 概念描述
这种方法是一种对某类对象的潜在的内涵进行基本的描述,然后通过概括这类对象一些明显的相关联的特征的方法。现阶段,理论界用到的概念描述可以分为:第一,特征性描述;第二,区别性描述。第一种主要用于描述共同特征;第二种主要用于描述不同类的对象所存在的区别,从而对相同类和不同类对象的整个对象集总结出他们的共性,得到研究结论。
3 数据挖掘技术应用评价
人们都非常急切的需要、去寻找一些存在于数据集当中的数据,并且想方设法去找出适合问题的解决方法,让这些数据能够被人所用,转化为人们所要研究的结论。那么,在众多的研究方法当中如何选取合适的方法就成为一项技术是否能发挥其优势、一个问题能否得到有效解决的关键。
3.1 数据挖掘技术的应用选择
3.2 数据挖掘技术应用的思考
数据挖掘的作用可以依据其应当具备的功能分为两种类别:一种叫做预测型的模式;另一种叫做描述型的模式。这些模式又能够根据其具有的相关的功能以及其在实际运用当中发挥的作用分为以下几种类别:数据分类,数据估值,数据预测,变量之间的相关性分析,变量之间的重要性分析,变量关系的时间序列,对变量之间变化关系的描述ฒ、可视化统计等等形式。那么,正确的方法并不等同于最好的方法,在实际进行数据挖掘过程中,实际问题实际分析,并对每个实际问题安排属于自己的方法才能让研究更加顺利。
4 结语
数据挖掘技术是一种新技术,其与时俱进与当代经济发展、社会发展、世界发展都存在着紧密的联系,选择合适的数据挖掘技术是解决问题的关键,也是解决问题的有效途径。当代学术界,在正确面对数据挖掘技术的同时也要善于发现数据发掘技术人才,从而数据挖掘技术能够正确、有效的运用在多个学科和领域。
参考文献