浅析大数据分析在中小型企业管理中的应用

时间:2024-12-27 15:01:25 来源:作文网 作者:管理员

0 引言

大数据是维克托迈尔-舍恩伯格在2008 年的著作《大数据时代》中提出的概念,在维基百科中解释为无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。主要特点为Volume 、Velocity 、Variety、Value。对于技术收益方,大数据的概念显得⌚通俗易懂,体现在大数据并不在大,而在于有用、价值含量高。

随着互联网的发展,越来越多的企业实行无纸化办公、数字化管理,在这一过程中,企业各方面的管理包括技术质量、人力资源、财务、现场生产组织等均形成了一定规模的基础数据。但是,这些数据是独立的,伴随企业的发展形成了数据孤岛,导致宝贵的信息资源不能得到有效利用。如何以这些连续或者离散的基础数据为基本保障,进行数据挖掘,形成知识,实现数据的有效利用受到越来越多企业的重视。本文以铸造企业熔炼过程中材质的化学成分对铸件裂纹焊补率的影响为课题,对大数据进行研究,探讨大数据分析在中小型企业管理中的应用。

1 数据准备

1.1 信息收集

信息收集是根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。本文研究的是材质为ZG15Cr1Mo1V 的铸钢件的裂纹焊补率与熔炼过程中化学成分之间的关系。需要收集的信息包括在焊接过程控制系统中提取目标参数裂纹焊补率,在熔炼过程控制系统中提炼熔炼参数、熔炼过程中检测到的化学元素、熔点等。

1.2 数据集成

数据集成是把不同来源、格式、特点、性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。由于铸件号的唯一性,本文的结果参数和影响因子可以通过铸件号结合在一起,实现了数据集成。

1.3 数据规约

数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。由于本文使用的数据样本数量没有达到百万级别以上,因此没有必要做数据规约。

1.4 数据清理

数据库中的数据有一些 ☻是不完整的或者含噪声的,或者是不一致的,因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。

本文在对数据集成完毕存入数据库后,对基础数据进行了修订和清理,将不符合的数据从数据仓库清理掉,确保数据的真实性和可靠性。

1.5 数据变换

通过平滑聚集,数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

本文所研究课题的目标是找出对裂纹焊补率有影响的关键化学元素,由于数据样本量不是很大,所以对结果裂纹焊补率结果进行了分类。按照中位数进行排列,在中位数以下的样本定义为低裂纹,中位数以上的样本定义为高裂纹。这样的定义避免过大或者过小的因子对整体结果的影响,也更有利于数据挖掘的分析。

2 数据挖掘

根据数据仓库中的数据信息,选择合适的分析工具,应用统计分析、事例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法等方法处理信息,得出有用的分析信息。

2.1 工具选择

可以进行数据挖掘的软件有免费和付费两种。免费的主要有以下:Weka:其支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择。JHepWork:其主要是用开源库来创建一个数据分析环境,并提供了丰富的用户接口来实现自己的挖掘算法。付费的主要有以下几种:SAS:是一个模块化、集成化的大型应用软件系统,可以处理大数据下的挖掘和统计,缺点是价格高。SPASS:统计产品与服务解决方案软件,相比于SAS 价格较低,操作简单,但是功能没有SAS强大。SQL Server Business Intelligence Development:是微软Sqlserver 数据库自身携带的关于商务智能的模块,能和数据库非常好的结合起来,提供了线性回归、贝叶斯算法、关联、逻辑回归等算法。本文的数据挖掘工具选择微软的商务智能平台。

2.2 挖掘算法确认

根据不同的目标确立不同的挖掘算法,本文研究课题主要采用以下几种挖掘算法。

①朴素贝叶斯算法。这是基于贝叶斯定理与特征条件独立假设的分类方法,它能检查所研究的实体的每个属性,从而确定该属性本身在何种程度上影响了想要预测的那个属性。

②神经网络。Microsoft 神经网络算法通过构造多层感知器网络创建分类和回归挖掘模型。当给定可预测属性的每个状态时,Microsoft 神经网络算法可以计算输入属性的每个可能状态的概率。

③逻辑 ツ回归。Microsoft 逻辑回归算法是Microsoft 神经网络算法的一种特殊形式。逻辑回归算法用于那些结果是二选一的情形的建模,如客户可能买或不买某种产品,一个人的病情可能会发展也可能不会发展等。

2.3 挖掘过程实施

在SQL Server Business IΣntelligence Development中创建一个Analysis services 项目,配置好数据源和数据源视图,并创建对应的数据源。

结合挖掘算法并分析,得出以下结论:

W 元素的含量是影响材质为ZG15Cr1Mo1V 铸钢件的裂纹焊补率的贝叶斯关键因子。且当其含量0.0069时候裂纹焊补率趋向于低裂纹。Nb 元素的含量对铸件裂纹焊补率影响较大。经过预测,当Nb 元素质量分数在0.003%-0.004%之间时,铸件裂纹焊补率比较低。Ca 元素的含量也对铸件裂纹焊补率影响较大。数据挖掘预测当Ca 元素的质量分数在0.002%-0.003%之间时,铸件裂纹焊补率比较低。

2.4 模式评估

模式评估是从商业角度,由行业专家来验证数据挖掘结果的正确性。经过对上述数据有效性的验证,技术部门对相关结论进行分析核实,得出上述结论具有参考和控制性的评估结果。

2.5 知识形成

将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。将本文研究课题的实验结论提供给公司虚拟设计部门,进行相关的实验研究。需要注意的是:数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。本次实验针对贝叶斯关键因子W 元素含量进行了验证,对铸件W 元素含量小于0.007%的铸件且其余检测化学含量项目相似的6 批铸件进行检测验证,发现除了1 批铸件的的裂纹焊❥补率为1.34 偏高外,其余铸件的焊补率均低于0.3,检验结果支持了W 元素含量对于裂纹焊补率的影响。这使得在以后的熔炼工艺设计中,W 元素的含量成为重点关注的项目。

3 整合业务流程

通过本课题的实施,对大数据的工作流程做了整合,具体流程如下:

确立目标,明确要验证什么、发现什么;数据仓库的建立,将相关因子进行数据处理并放入数据库;根据目标确立挖掘算法;依据挖掘算法得出的结论,并进行理论和实验验证;将经过验证的结论形成知识。

4 结论

在本课题的研究过程中,数据清理和模式变换是核心。研究初期,由于模式变换不到位,对挖掘得出的结论进行验证,得到不符合的结论,同时在研究过程中统计理论知识的欠缺,使整个模式评估花费的时间较多。这些都需要在今后工作中加强相应知识的学习。

经过这次课题的研究,验证了大数据分析结果在企业管理中具有参考和控制性作用,大数据分析方法可在中小企业管理中加以应用。


热门排行: 教你如何写建议书