大数据环境下的信息系统安全保障技术
摘要:继云计算、物联网之后,大数据是当前学术界和产业界研究的热点。根据大数据的“4V+1C”特性可以将大数据应用过程分为采集、存储、挖掘和发布四个环节。本文分析了大数据在各阶段所面临的安全威胁,阐述了大数据环境下的信息系统安全保障关键技术及应用。
Abstract: Following cloud computing and IOT, big data is a hot currenttopic in both the academic and the industry research now. According to "4V + 1C" feature of big data,big data application process can be divided into the collection, storage, mining and publishing four parts. This paper analyzes the security threats of big data faced at each stage, elaborates the key technology for information system security for big data environments and application.
关键词:大数据;4V+1C特性;安全威胁;信息系统安全
Key words: big data;"4V + 1C" feature;security threats;information system security
0 引言
继云计算、物联网之后,大数据成为时代最为前沿的话题。“数据里面有黄金”让大数据充满诱惑力。越来越多的企业开始对大数据进行研究,从大数据中挖掘出有用的信息能够帮助企业做出更加正确的决策,创造出巨大的商业价值。仅2009年,谷歌公司利用大数据业务对美国经济的贡献就达到540亿美元。淘宝公司通过对大量交易数据的变化分析可以提前6个月预测全球经济发展趋势[1]。
大数据是把双刃剑,它带来巨大机会的同时,也给信息系统带来了前所未有的安全问题。在“数据采集―数据整合―数据提炼―数据挖掘―数据发布”这种新型数据链中对数据进行安全防护变得更加困难,同时,数据的分布式、协作式、开放式处理也加大了数据泄露的风险[2]。现有的信息安全手段已不能满足大数据时代的信息❧安全要求。本文分析了大数据安全威胁,阐述了大数据环境下信息系统安全保障技术,最后介绍了某企业大数据安全防护架构。
1 大数据内涵与特征
不同的组织结构从不同角度对大数据给出了不同的定义:在信息技术中,“大数据”是指一些使用现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集;在麦肯锡等咨询机构,“大数据”是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集;在公司企业中,“大数据”通常指海量、多样的数据。简言之,大数据是大规模数据的集合体,更是数据对象、集成技术、分析应用、商业模式、思维创新的统一体。
无论对大数据如何定义,它都具备 “4V+1C”的特点,即:多样化variety(大数据种类繁多,一般包括结构化、半结构化和非结构化等多类数据)、海量化volume(大数据体量巨大,PB级别是常态,且增长速度较快)、快速化velocity(数据的快速流动和处理)、价值密度低value(大数据价值密度的高低与数据总量大小成反比)以及复杂化complexity[3]。
2 大数据安全威胁
在大数据环境下,“数据采集―数据整合―数据提炼―数据挖掘―数据发布”这种新型数据链中对数据进行安全防护变得更加困难,同时,数据的分布式、协作式、开放式处理也加大了数据泄露的风险。大数据的“4V+1C”特征对传统的基础设施、存储、网络、信息资源等都提出了更高的安全要求,安全威胁将成为制约大数据技术发展的瓶颈。
2.1 大数据基础设施安全威胁
大数据基础设施包括存储设备、运算设备、一体机和其他基础软件等,利用高速网络收集数据,大规模存储设备对海量数据进行存储,各种服务器和计算设备对数据进行分析处理。这些基础设施虚拟化、分布式的特点使大数据面临如下安全威胁:非授权访问、信息泄露或丢失、网络基础设施传输过程中破坏数据完整性等。
2.2 大数据存储安全威胁
大数据的规模通常可达PB量级,数据来源多种多样,结构化数据和非结构化数据混杂其中。大数据对存储的需求主要体现在海量数据处理、大规模集群管理、低延迟读写速度和较低建设运营成本等方面。采用传统关系型数据库管理技术往往面临成本支出过多、扩展性差、数据快速查询困难等问题。因此,对于占数据总量80%以上的非结构化数据,通常采用非关系型数据库NoSQL技术完成对大数据的存储、管理和处理。而NoSQL也具有模式成熟度不够、系统存在漏洞等问题。
2.3 大数据网络安全威胁
大数据时代的信息爆炸导致网络面临严重威胁。网络节点的数量呈指数级增加,非法入侵次数急剧增长;攻击技术不断成熟且手段多样,APT(高级持续性威胁)攻击逐渐增多,攻击者的工具和手段呈现平台化、集成化和自动化的特点,具有更强的隐蔽性、更长的攻击和潜伏时间,给¡现有的数据防护机制带来了巨大的压力[4]。
2.4 大数据带来隐私问题
大数据通常包含了大量的用户身份信息、属性信息、行为信息。大量事实表明,大数据未被妥善处理会对用户的隐私造成极大的侵害。传统数据安全往往围绕数据生命周期(数据的产生、存储、使用和销毁)来部署。随着大数据应用越来越多,数据的拥有者和管理者相分离,原来的数据生命周期逐渐变成数据的产生、传输、存储和使用,使用户隐私面临巨大威胁[5]。
3 大数据信息安全保障技术
根据大数据自身特性及应用需求的特点,可以将大数据应用过程划分为采集、存储、挖掘和发布4个环节。数据采集环节安全问题主要是数据汇聚过程中的传输安全问题;数据存储环节是指数据汇聚后大数据的存储需要保证数据的机密性和可用性,提供隐私保护;数据挖掘是指从海量数据中抽取有用信息的过程,此过程需要认证挖掘者的身份、严格控制挖掘的操作权限,防止信息的泄露;数据发布是指将有用信息输出给应用系统,需进行安全审计,并保证对可能泄露机密的数据实现溯源。图1为某企业大数据安全防护系统架构图。
3.1 数据采集安全技术
数据采集环节是指数据的采集与汇聚,安全问题主要是数据汇聚过程中的传输安全问题,主要指数据的机密性、完整性、真实性、防止重放攻击。目前主要采用虚拟专用网技术❣(VPN)通过在数据节点以及管理节点之间布设VPN的方式满足安全传输要求。VPN技术将隧道技术、协议封装技术、密码技术和配置管理技术结合在一起,采用安全通道技术在源端和目的端建立安全的数据通道,通过将待传输的原始数据进行加密和协议封装处理后再嵌套装入另一种协议的数据报文中,像普通数据报文一样在网络中进行传输。经过这样处理之后,只有源端和目的端的用户对通道中的嵌套信息能够解释和处理,对其他用户只是无意义的信息。
3.2 数据存储安全技术
大数据除了具备“4V+1C”特征外,还具有生命周期长,多次访问、频繁使用的特征,尤其是云服务商和数据合作厂商的引入更加增加了数据泄露和窃取的风险,如果数据的存储安全性得不到保证,会对企业和用户带来无法估量的后果。
①数据加密。
使用VPN可以保证数据传输的安全,但当数据以明文的方式存储在系统中时,面对未被授权入侵者的破坏、修改和重放攻击时就显得很脆弱,对重要数据的存储加密是必须采用的技术手段。数据加密算法分为对称加密和非对称加密。常见的对称加密算法有DES、AES、RC4、RC5、RC6等,其加密和解密使用同一个密钥。常见的非对称加密算法有RSA、ElGamal等,使用两个不同的密钥,一个公钥和一个私钥。在实际工程中常将对称和非对称加密算法结合起来,利用对称密钥系统进行密钥分配,利用非对称密钥加密算法进行数据的加密,此种方式尤其适合大数据环境下加密大量数据。
②备份与恢复。
常见的数据备份与恢复机制有异地备份、RAID、数据镜像、快照等。随着数据量达到PB级别,Hadoop是目前应用最广泛的大数据软件架构,Hadoop分布式文件系统HDFS可以利用自身的数据备份和恢复机制来实现数据可靠保护。HDFS将每个文件存储分为数据块存储,除了最后一块,所有数据块的大小都是一样的。文件的所有数据块都会保存多个副本来保证数据的容错,用户可以自己设置文件的数据块大小和副本系数。数据的复制全部由控制节点管理,数据节点需要周期性地向它报告心跳信息(表明自己在正常工作)和自身状态(包括CPU、硬盘、数据块列表等)[6]。
3.3 数据挖掘安全技术
数据挖掘即从海量数据中自动抽取隐藏在数据中有用信息的过程,是大数据应用的核心部分。数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能运算、模式识别、神经网络、信息检索和空间数据分析等多个领域的理论和技术。数据挖掘的专业性决定了拥有大数据的机构往往不是专业的数据挖掘者。因此在大数据核心价值发掘过程中可能会引入第三方挖掘机构,要确保第三方在进行大数据挖掘过程中不植入恶意程序、不窃取系统数据,首要解决的安全问题就是数据挖掘者的身份认证[7]。常用的认证机制有Kerberos认证机制、基于公告密钥的认证机制、基于动态口令的认证机制和基于生物识别技术的认证机制。
①Kerberos认证。
Kerberos是一种基于可信任第三方的网络认证协议,旨在解决分布式网络环境下,服务器如何对接入的用户进行身份认证。Kerberos除了服务器和用户外,还包括可信任第三方密钥发放中心(KDC)。KDC包括两部分:认证服务器(AS)和凭据发放服务器(TGS),前者用于在登录时验证用户身份,后者用于发放“身份证明许可证”。
②基于公共密钥的认证机制PKI。
PKI是一种运用非对称密码技术来实施并提供安全服务的具有普遍适用性的网络安全基础设施。它采用证书管理公钥,通过第三方可信任机构认证中心,把用户的公钥和用户的其他标识信息捆绑在一起,在Internet上验证用户身份以保证数据在网上安全传输。
③基于动态口令的认证机制。
为了解决静态口令的不安全性提出了动态口令机制,其基本思想是:在客户端登录过程中,基于用户的秘密通行短语(SPP,secure pass phrase)加入不确定因素,SPP和不确定因素进行变换(如使用MD5信息摘要),所得结果作为认证数据即动态口令提交给认证服务器。由于客户端每次生成认证数据都采用不同的不确定因素值,保证了客户端每次提交的认证数据都不相同,因此动态口令机制有效地提高了身份认证的安全性。
④基于生物识别技术的认证方式。
目前业界已经广泛采用利用生物特征识别技术(如指纹、声纹、人脸、虹膜等)来认证人类真实身份,无需记忆密码。由于生物特征具有与生俱来的自然属性,因此无需用户记忆,难以被复制、分发、伪造、破坏、共享、失窃等,安全性大大提升。
在大数据挖掘过程中的身份认证往往采用多因素认证,即将生物认证与密码技术相结合,提供用户更高安全性。
3.4 数据发布安全技术
数据发布是指大数据在经过挖掘分析后,向数据应用实体输出挖掘结果数据的环节。数据发布前必须利用安全审计技术对即将输出的数据进行全面的审查,确保输出的数据“不泄密、无隐私、不超限、合规约”。当然,再严密的审计手段也难免有疏漏之处。因此要有必要的数据溯源机制(数字水印技术)保证一旦数据发布后出现机密外泄和隐私泄露等数据安全问题时能够迅速定位到出现问题的环节和实体。 ①安全审计。
安全审计是指记录一切(或部分)与系统安全有关活动的基础上,对其进行分析处理、评估审查,查找安全隐患,对系统安全进行审核、稽查和计算,追查造成事故的原因,并作出进一步的处理。目前常用的审计技术有基于日志的审计技术、基于网络监听的审计技术、基于网关的审计技术和基于代理的审计技术。
②数据溯源。
数据溯源就是对大数据应用周期的各个环节的操作进行标记和定位,在发生数据安全问题时,可以及时准确地定位到出现问题的环节和责任者,便于对数据安全问题的解决。数字水印技术可用于数据溯源,它是将一些标识信息(即数字水印)直接嵌入数字载体(如多媒体、文档、软件等)中,利用数据隐藏原理使水印标志不可见,既不损害原数据,又达到了对数据进行标记的目的。在大数据应用领域,在数据发布出口建立数字水印加载机制,在进行数据发布时,针对重要数据,为每个访问者获得的数据加载唯一的数字水印。当发生机密泄露或隐私问题时,可以通过水印提取的方式确定数据泄露的源头以便及时进行处理[5]。
4 大数据安全应用案例
某企业根据业务流程,从大数据处理的各个环节入手搭建的大数据安全防护架构。首先,在数据采集层,对源数据进行分级分类,在数据存储阶段对敏感数据进行特殊保护和脱敏处理;其次,在数据处理层,对数据进行加工、封装使ญ得处理后的数据在对外提供前得到相应的安全处理;在数据挖掘与应用阶段对数据的使用行为进行审计与溯源;在应用层设立安全网关,旨在对产品推广、广告投放等方面进行安全管理。同时,该企业还为其大数据安全系统进行操作维护、加密算法升级、行为审计等安全防护。通过上述对数据应用各个环节的安全措施,可以使该信息系统安全信任度提高50%以上。
5 结束语
随着大数据环境下的信息系统安全需求越来越高,各类企业推出的信息安全防护方案都尝试在数据处理的各个环节中对数据的采集、存储、挖掘和应☏用进行管控,全方位保护信息安全,保障企业利益。
参考文献:
[3]维克托迈尔舍恩伯格著,大数据时代[M].周涛,译.浙江:浙江人民出版社,2012.
[7]张尼,张云勇.大数据安全技术与应用[M].北京:人民邮电出版社,2014.