投资统计大数据处理关键技术
摘 要:大数据主要包括结构化数据、非结构化数据两部分,目前已具备应用价值大、数据量大、速度快等特点,这些特点对今后投资统计数据处理技术将带来颠覆性变化,为此,本人结合从ฃ事多年统计数据处理经验,重点阐述投资统计大数据在数据采集、存储和分析涉及的主要关键技术。
【关键词】投资统计 大数据处理 关键技术
本人从事多年统计工作,对投资统计大数据有着天然的亲近感,投资统计就是搜集、整理、分析、应用数据。目前投资统计改革正在有序开展,我们要抓住改革契机,充分利用投资统计大数据具有海量、实时、多元处理特点,深刻解读数据,创新研究思路,提高投资统计数据处理能力,提供投资统计分析具有数据全、分析深、研究透、成果新、有理有据的可行建议,成为党政府、部门决策的重要参谋。
1 概述
1.1 大数据
投资系统中数据有三种类型分别是项目投资管理数据、联网直报房地产投资数据、规下投资抽样数据。根据投资数据内在结构,可以分为两类,一类是结构化数据,统计系统的企业原始数据可以通过二维表形式反映的数据;另一类是非结构化数据,不能以二维表的形式来反映的数据,如文本、图片、音频、视频等产生的数据。
与传统投资统计不同,投资统计大数据可利用遥感技术和GIS技术进行动态监测,能够获取定期数据,对现有投资统计业务系统进行分析,主要表现在:一是为了能够对投资统计系统运行获取定期数据,要对投资项目进行定位,每个月节点都会产生大量的数据。二是PDA设备对投资统计项目样本点的经常性变化。三是为了能够把握重大项目投资进度,要求对投资统计系统运行中相关信息定期变样采集。四是投资统计数据能够定期与发改、住建、税务等部门数据共享和数据比对。
投资统计大数据具有以下特点:一是数据量大。随着大数据的发展,投资统计数据TB级逐步上升到PB级。二是类型种类多。现在党政领导对投资统计数据需求越来越准,要进行处理结构化和非结构化投资统计也越来越多,才能够满足需求。三是利用率低。如在定期监测重大投资项目过程中, 大部分监测过程中的数据在正常范围之内,而非常少的监测异常数据是非常有用的,特别是投资项目数据异常值,要通过这些数据对比验证,数据是否正确,因此有利用价值的数据占总数据的比例少。四是处理要快。处理投资统计大数据速度要求快,可以利用小型计算机和云技术在非常短时间内能够分¿析数据,为党政领导决策提供高质量的数据作为依据。
2 关键技术
2.1 采集技术
大数据的采集指利用很多个数据库同时接收,从客户端的传输来的数据,一般用户可以通过这些数据库,在客户端能够达到一般查询和处理过程。 但是在大数据的采集过程中,最大的难点数据并发高,很有可能会同时成千上万的用户来进行访问和操作,采用在采集端部署大量数据库作为支持,能够有效、科学地在投资数据库之间进行负载均衡和分片,是数据采集技术的关键环节。
各类大数据分部不同的部门或项目,给数据的收集带来一定难度,采用关系数据管理模型,运用Google 文件系统GFS 技术,具有纵向扩展功能,应对数据采集并发数高,也是确保实现高效获取大数据的核心。
2.2 传输、存储技术
投资统计系统采用联网直报平台,运行时会实时产生各式各样的原始数据,特别定期用投资遥感监测中数据也会产生更多的数据,经过日月积累海量的数据,会给投资监控设备及数据传输、存储系统造成沉重的负担,并对投资统计系统发展造成很大的影响。
目前投资统计系统数据的传输,为了减轻数据传输量,大部分采用数据压缩的方式,可以应用到投资统计数据传输,大大提速整个系统数据的传输,从而有效降低数据储存的空间。若没有建立有效批处理模型,在压缩、解压过程中仍然占用系统资源较大,浪费也很大,因此更急需建立有效的批处理模型是重要的。现在普遍采用MapReduce批处理模型,能够在平常配置的计算机上实现并行化处理,且能够分割输入数据,在计算机组成的集群上统一调度,确保计算机的集群之间顺畅的通信。
投资统计大数据存储一般采用分布式保存方式,具有性能可靠性,可以解决海量数据的存储问题,可有局限性,如投资统计系统运行时,随时产生实时性数据,处理过程中还是不能够全面应对,最好要根据不同类型的大数据性能先分析,然后再进行实时分类存储。特别是投资遥感监测系统中非结构化数据占大数据比重非常大,需要解决大量非结构化数据转变为结构化数据处理能力,是投资统计系统在大数据处理技术解决的关键问题。采用GFS的分布式文件系统主要对海量大文件而设计,而海量小文件可以用Haystack系统,可以用多个逻辑文件共同使用一个文件,解决小文件存储的问题。
2.3 实时处理技术
解决投资统计大数据处理速度是至关重要,数据处理范围越来越大,数据处理时间就越长,假如数据量处理的范围超过了数据本来的处理能力,缺乏整个系统稳定运行,就会对投资统计系统运行产生不可估量的影响。虽然可以利用云计算系统,能够提供投资统计系统服务,但是对特别联✌网直报时间高峰期,现在也经常出现堵塞事件,造成企业统计人员无法准时上报数据,也对投资统计系统运行提出更高要求。
大数据产生的过程比较复杂,对有投资统计数据进行基于各种统计算法的计算,必然存在数据的内涵不一致、记录重复、或者感兴趣拟处理的属性指标不完整、或者含有噪声等各种问题,必须实时进行清洗和预处理,去掉噪声和无关数据,便于后续的分析、分析处理。使用Sector广域网的分布式系统,利用Sphere基本数据处理模型,针对不同的数据,能够统一输入数据流方式,进行实时大规模并行计算,在对数据进行分割,分割后数据转交给SPE,能够起到负载平衡。
2.4 分析技术
投资大数据分析主要通过分布式数据库或者分布式计算集群,对现有已存储的大量数据库,分步骤能够简单的分类汇总、统计分析等,能够实现普遍常见的分析需求,但是对于一些需要批处理基于半结构化或非结构化数据,利用可视化分析技术、高度集成技术,对图像和投资原始数据及专业的大数据分析工具,进行与部门数据之间统计分析或比对。统计与分析这环节的主要特点涉及的面广、量大,运行系统资源占用也非常高,特别是输入输出资源占用率高。随着大数据的发展,用Bigtable分布式、按列¡存储、多维表结构的实时分布式数据库,可以对大数据结构化、半结构化和非结构化数据读写操作,使用SQL 语言进行大量数据的统计、查询和分析操作,解决了可视化分析技术的扩展性,能够有效提取重要数据、显示合成图像。用LOD技术采用策略处理大数据量的实时传输与可视化,实现按等级组织分块,平常称为金字塔结构。
大数据的分析技术与传统的统计数据汇总分析方法有较大的差别,不能将原来的统计系统数据处理经验简单的移植到大数据的数据处理中去,需要针对不同的大数据对象,部署相应的数据采集环境,建立平值法、平滑法、预测法和频率统计法等统计数据相关模型或算法,对投资统计大数据进行深度和广度的对比分析或核查。
3 结束语
伴随现代信息技术的迅猛发展,传统的投资统计知识、理论、技术、方法等正处于大变革、大跨越、大发展之中,投资统计也面临良好机遇。特别大数据时代的到来,投资统计大数据处理在遥感地理信息系统、全球定位系统等空间信息技术中应用,极大丰富了投资统计的数据来源,使投资统计工作如虎添翼,同时也对投资统计理念、数据来源和数据生产方式提出全新挑战,继续寻求有效的解决办法,更要广泛深入与国际、国内科☪研机构合作交流,不断创新探索,有助于繁荣投资统计科学,传播先进投资统计理念和方法,提升投资统计能力和水平。
参考文献
[2]程开明,陈龙.大数据时代的统计挑战与应对[J].中国统计,2013:11-13.