浅谈大数据在计算机信息处理技术中的应用

时间:2024-12-26 02:22:46 来源:作文网 作者:管理员

0引言

进入新世纪以来,以互联网为主线的计算机应用发展

十分迅速,近年来,微博、微信、社交网络圈、物联网、导航、电子商务等概念的提出以及实现在很大程度上改变了人们的口常生活,同时也带来了海量的数据,人类正进入大数据时代,对于大数据的定义,学术界、计算机应用界进行了大量的研究与探讨,分别从各自的角度提出了关于大数据的定义。美国计算机巨头IYM公司认为大数据时代下,计算机所处理的数据具有海量的数据量,常规的对数据量的衡量已不足以满足需求;数据的种类繁多,既有科学计算领域的结构化的数据,同时也有视频监控、电子商务信息处理的非结构化的数据,对于这些不同类型的大数据,相应的应用范围十分广泛。

为了处理这些海量数据,我们对计算机的运算速度提出了很高的要求,常规数据处理速度和效率已经不能适应大数据时代下的数据处理。IYM认为满足数据量大、数据种类多以及处理速度快的海量数据就是大数据。此外,还有不少研究人员、工程实践单位认为,计算机处理的数据必须是具有价值或意义,因此,也有™研究者认为大数据必须满足:海量、多种、快速、价值的特征才能称之为大数据。.

1大数据处理方法

1. 1流处理模型与批处理模型

计算机对数据的处理过程常分为串行和并行处理,大数据的处理方法大致也分为两种模型:流处理模型和批处理模型。简单的说,流处理是采用对信息直接进行处理的技术,而不经过对信息的存储过程;而批处理则是先把信息存储起来,然后再对信息进行处理。

1. 1. 1流处理模型

对于那些对处理响应速度要求较高的数据,宜采用流处理技术,否则,经过存储之后再处理,得到的处理结果已经过时,不再适应当时的条件,因此,对数据的处理也失去了意义。一般来说,银行、证券、股票等金融领域,实时数据交换系统等对数据的处理速度要求比较高,因此适宜采用流处理模型进行处理。采用流处理模型对大数据进行处理就是把数据视为水流一样,不断获得的数据处理对象组成数据流结构,每当收到一个数据处理对象,就立即对其进行处理,并迅速将处理结果返回。由于流处理模型对数据处理的实时性要求非常高,数据不经过存储过程就直接在内存中进行处理,因此内存容量往往限制了流处理模型对大数据的处理效率,在采用流处理模型进行处理时,往往需要根据处理对象设计巧妙的数据结构,以提高对大数据的处℉理效率。

1.1.2批处理模型

批处理模型与流处理模型不同,它是先把待处理数据分块,然后把这些数据块分别交给不同的处理区进行数据处理。批处理的基本原理就是把问题进行分割,分别交给不同的处理区,这样避免了数据的传输过程中的空间和时间的消耗。

流处理模型和批处理模型都能有效地实现对大数据的处理,但是在大数据的实际处理过程中,往往不单独应用某一种处理模型,而是经常把流处理模型和批处理模型结合起来进行数据处理。以电子商务为代表的互联网应用带来了大量的数据,在对这些海量数据进行处理时,往往根据数据对实时处理要求的高低采用不同的处理模型,对于要求在秒甚至毫秒级处理速度的数据处理工作往往采用流处理模型进行处理;对于以天甚至周为周期进行处理的数据,往往采用批处理模型以离线的方式进行数据处理;而对处理周期要求为分钟或小时的处理对象,既可以采用流处理模型也可以采用批处理模型。

1. 2大数据处理流程

大数据的处理流程大致为:对海量数据源进行信息提取,将提取出的数据按照适当的方式进行存储,根据应用对象对数据处理速度和空间的要求,采用某种恰当的数据处理技术对大数据进行处理,将数据处理结果返回给用户,这里的用户可能是实际的用户也可能是调用大数据处理流程的某一程序或任务。概括起来,大数据的处理主要包括数据的提取、分析和解释工作。

大数据具有多样性,即数据的来源不同,数据的组织结构比较复杂,因此,为了有效地处理庞杂的数据,首先需要进行的工作就是从海量数据中提取出有效部分,描述分析对象的实体以及实体之间的联系,得到这些关系和实体之后进行数据之间的聚类,将其组织成统一的结构进行存储,得到可以进一步处理的中间数据。针对源数据进行的数据的提取和统一组织工作,在数据库领域已经有了成熟的研究,因此可以借鉴相关成果进行中间数据的提取和集成工作。

数据分析是针对数据提取得到的中间数据进行分析,它是大数据处理的核心工作。数据分析的对象是数据处理提取得到的中间数据,大数据分析技术可以借鉴传统的数据处理技术,例如机器学习、数据挖掘等技术,但是并不能直接套用,需要一些改进,因为数据提取得到的中间数据依然具有很大的数据量,这其中必定仍然含有很多无效、无用的信息,因此需要对数据进行进一步的清理工作。

由于大数据处理的对象是海量的数据,因此对数据的处理速度往往更加受到关注,在大数据处理的算法设计中,经常需要在处理精确度和处理速度之间进行合理的折衷。另外,不同的处理对象之间的处理过程具有很大的相似性,因此在算法设计过程中应该在算法的可移植性上给予充分的考虑,并且,当数据量增长到一定规模时,对于小量数据能够有效进行处理的算法并不一定适应于大数据的处理。

数据解释是大数据处理的结果展示阶段。数据处理阶段得到的结果,往往只有领域内的技术人员才能够看懂,因此为了使使用户能够理解数据分析结果,还需要对结果进行解释,传统方法是以文本的形式存储结果或者通过显示终端显示结果,但是大数据量较为庞杂,因此其各实体之间的联系也是较为复杂的,故采用传统方法并不合适。在实际工程中,可采用以标签云、历史流等为代表的可视化技术进行解释。

1. 3大数据处理技术及工具

1. 3. 1云计算

云计算是一种计算机概念的具体实现,这些概念涉及的范围十分广泛,如分布式计算、并行计算以及网格计算,云计算在这些概念的基础上进行了扩展。云计算中的云是一个虚拟的容器,这个容器中包含了计算机范畴内的可利用资源,例如硬件、系统开发平台以及输入输出服务等。云计算的有效实现需要计算机操作系统中各种概念、技术的支持,这些技术主要包括数据存储和处理、索引的技术,例如计算机文件操作系统、数据库系统、数据的索引、查询系统和数据分析技术等。

1.3.2大数据处理工具

对于传统的数据进行处理,最为有效的就是关系数据库模式。但是它并不适用于大数据的管理、存储和处理工作。Hardtop是当前大数据处理领域较为流行的工具,Ha-droop综合了大数据处理技术所要求的文件操作系统、数据库系统、数据的索引查询技术以及数据分析技术,从某种意义上说,Hardtop为大数据处理工具的开发实现树立了一个标杆。当前针对大数据处理工具的开发、创新、实现主要是基于数据对象的特点对Halloo},进行有效地改进。当然,除Hardtop之外,还有很多大数据处理工具,这些工具要么是与Halloo},类似,要么是针对特定领域数据专用的大数据处理工具。

2大数据在信息处理技术中的应用案例

社交网络平台Face book在国外十分流行,每天ข产生大量的数据量,现有数据总量,每天数据增量也有60TB, face book所需要解决的问题就是海量数据处理问题。

在face book的大数据信息处理平台中,关系数据库技术作为系统的两端,在前端用于获取数据,为大数据处理平台提供数据源,在后端则把数据处理结果组织起来,支持用户的查询操作,并把查询操作结果返回给用户终端显示。整个平台的核心是大数据处理、分析部分,这一部分在H ivy-H adopt集群中进行,前端获取的数据装载到Hive系统中,进行数据的聚集、分析操作,并且把数据的分析结果存储在后端的关系数据库中。另外,在Hive系统中,支持即席查询的集群的作用是为了减轻即席查询对Hive系统的压力,将数据复制到一个备份的Hive系统中,该备份系统专门应对即席查询。

3大数据应用发展所面临的机遇与挑战

大数据环境下,计算机技术与互联网技术发挥各自的优点,为用户带来了前所未有的良好体验,然而,大数据同样带来了一些新的问题与挑战,这给计算机的应用和信息处理带来了巨大的挑战。

3. 1数据转换

大数据时代信息处理所面向的对象是海量的、分布在各地的异构数据,为了对这些数据进行有效的处理,首先需要进行的是对这些异地异构数据进行数据集成。与传统的数据集成技术相区别的是:数据类型不再是结构化的,而是半结构化、结构化以及非结构化混杂在一起;随着以手机、平板、掌上电脑为代表的智能终端设备的迅速普及,数据产生的时间、空间发生了很大的变化;数据的存储方式也不再是传统的数据库方式,为了应对数据爆炸所带来的海量数据,在对数据进行处理时,首先需要把数据的存储方式进行转换。

3. 2数据安全保护

大数据由于数据量大,信息繁杂,因此更容易遭受攻击,它成了计算机病毒和网络攻击的新对象,因此信息安全技术在很大程度上影响着用户对大数据应用的信任度,同样决定了大数据所能发展到的高度。同样由于数据量大,数据泄漏的可能性大幅度增加,传统数据的处理可以采用流处理模型直接在内存中进行存储,而大数据的处理往往要经过数据的集中存储过程,因此数据泄漏的风险加大。大数据时代的发展所面临的一个主要的问题就是数据安全技术的发展。

3. 3数据足迹保护

大数据时代,用户在计算机、网络、互联网中的行为会以0,1数据的形式记录下来,因此用户的隐私保护问题也面临着巨大的挑战。用户在网络中的行为之间具有联系性,在某一时刻的数据泄漏可能并不会威胁到用户的数据安全,但是如果多个时刻的信息泄漏,并且将这些信息联系起来,就有可能把用户的行为联系起来,从而造成了用户的隐私泄漏。

3.通数据管理硬件节能

海量的数据存储、管理依赖于大量的高性能计算机、服务器、数据存储介质的服务,在这个过程中,带来了大量的能源消耗,因此对低功耗硬件的开发、升级进展也在很大程度上制约着大数据应用的发展。

4大数据的发展方向

针对当前的大数据应用所面临的挑战和机遇,为了进一步拓展大数据应用的广阔前景,还需要广大研究人员进一步针对如下几个问题展开大量的研究:海量的数据存储、管理依赖于大量的高性能计算机、服务器、数据存储介质的服务,在这个过程中,出现了大量的能源消耗,同时,上述硬件在工作时产生了大量的热,这对硬件本身也是一种威胁,一旦硬件损坏,数据将面临着灭顶之灾,因此,开发低功耗硬件以及性能可靠的硬件温度保护系统是大数据应用发展必须解决的问题☏;大数据的处理技术研究较为深入,但是基于大数据的面向用户、面向市场的应用服务并不多,加强技术向应用的转化,为用户提供更多、更优质的数据管理、服务将有很大的อ市场;大数据的各供应商之间接口标准化问题将关系到用户能否无缝对接各供应商提供的服务,同时,接口标准化也能为供应商提供有序、公平的市场竞争机会。

5结束语

本文从大数据发展的现状、大数据处理的方法和流程、大数据处理的关键技术以及大数据应用面临的机遇与挑战的角度探讨了大数据在计算机信息处理技术中的应用。同时,针对大数据应用所面临的机遇和挑战,文中也提出了一些大数据在计算机信息处理技术中应用所需要进一步解决的问题与建议。


热门排行: 教你如何写建议书