后web2.0时代,互联网、物联网每天都在生产大量数据,人们对于这些庞大数据资源的价值渴求,使得“大数据”的概念得以问世。如果说“数据”是支撑未来核心技术的基础“原材料”,那么“大数据”正在演变成一种战略资源,当“用户需求导向”成为企业共识,大数据的收集、挖掘和分析开始支撑企业的业务运转、营销策略乃至战略方向,数据成为企业愈加珍视的宝贵资产。
目前,建设有大数据平台的企业不在少数,对比传统数据库,大数据平台数据大量集中,且蕴含更高价值,其安全建设要求明显更高。然而,由于大数据平台使用非结构化数据库类型,以及不同于以往应用与数据库,对应相对简单的传统网络结构,大数据平台安全建设为平台开发和运维者提出了难题。
日前,安华金和面向各行业it运维和开发人群开展了一次大凯发k8游戏市场现状和需求调研。希望借此方式了解用户的大数据使用和运维安全现状,发现各行业用户在数据库运维工作中的安全需求,并梳理出整套适用于大数据平台特性的数据安全方案,帮助用户开展安全建设。安华金和从多方通道获取的近400份问卷中抽取170份有效样本进行统计分析,总结归纳出此份《大数据安全市场现状和需求分析》,摘取报告重点分析结论,分享给关注大数据安全的人士。
抽取调研样本来自不同行业的部门或企业,包括:政府、制造、医疗、金融、通信、教育、能源、交通、保险行业等。调查对象主要为技术人员,直接从事it运维或技术开发工作,或者为用户提供运维服务、凯发k8游戏的解决方案及相关产品咨询,其中以技术经理、运维工程师、技术开发者占大多数,他们在单位中会指导或直接参与大数据平台的建设和运维,肩负大数据安全建设的责任,这为此份调研报告的客观性、专业度提供了基本的保障。
大数据技术应用现状
本次调研中,半数受访者表示已经将大数据技术应用于单位部分业务中,或者明确列在应用计划内,处于技术选型阶段,另外半数受访者虽然没有真正启动大数据应用项目,但同样关注并处于技术调研阶段。同时,在已经投入大数据应用的受访者中,45%的受访者表示将大数据技术应用在了单位核心的数据分析或业务系统中,意味着单位核心业务数据写入大数据平台,这部分数据与平台分析结果具有非常高的商业价值,需要更高敏感度。
可以肯定的是,大数据技术已经受到各行业用户的广泛关注,当市场中近半数群体已经有所动作,一旦行业标杆案例成熟落地,另半数用户的方案复制和普及将很快开展起来。
大数据产品的使用情况
对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,除了这些,大数据平台对传统的关系型数据库提出了更多的挑战,包括:高性能的事务管理性要求、读写实时性要求、高可用性要求。因此,在大数据平台的建设中,关系型数据库的很多特性失去了用武之地,非关系型数据库(nosql)成为大数据平台的标配。
在本次调研中,我们列出了目前相对常见的几类非关系型数据库产品,希望对几款产品的市场接受度加以了解:
32%的受访者应用了mangodb数据库,使用最为广泛:mongo最大的特点是支持的查询语言非常强大,语法类似于面向对象的查询语言,可以实现类似关系数据库单表查询的大部分功能,而且还支持对数据建立索引。mongodb主要解决的是海量数据的访问效率问题,当数据量达到50gb以上的时候,mongo的数据库访问速度是mysql的10倍以上,这也是mongodb广受青睐的主要原因。
其次为hbase、hive、redis等几类,均在22%左右:hive与hbase都是基于hadoop平台的数据仓库工具,其优点是学习成本低,可以通过类sql语句快速实现简单的mapreduce统计,不必开发专门的mapreduce应用,十分适合数据仓库的统计分析。
spark紧随其后,占比17%:spark 是一种与 hadoop 相似的开源集群计算环境,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是——job中间输出结果可以保存在内存中,从而不再需要读写hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
此外,在其他选项的答案中也出现了db2、阿里大数据云等产品。
大数据平台中有哪些数据?
我们谈安全建设的时候,首先要搞清楚保护对象,不同业务类型、不同敏感级别的数据,需要根据其本身的敏感级别以及被访问和使用的情况,选择恰当的保护手段。因此,我们需要了解用户群体到底把哪些数据放到了大数据平台中存储和使用。
调研结果显示,50%的受访者会将“生产数据”放入大数据平台中,也就是单位主营业务系统实时产生的重要数据。这些数据从生产环境直接写入大数据平台,具有很强的实时性和敏感度。
41%的受访者选择“用户资料”,也是企业赖以生存的商业数据;此外,访问日志和交易信息分别有34%和24%的受访者选择。
更有14-15%的受访者表示会将第三方数据和财务数据放在大数据平台中,这里面第三方数据的出现,是指业务中的数据多方共享,测试、开发、分析场景中的数据分发等情况。此外,也有少数受访者提到了企业征信数据。
用户们的安全顾虑
大数据平台中汇集了一个单位方方面面的数据,并向各类对内或对外的业务系统开放接口,这意味着传统环境下的数据安全威胁在大数据应用场景下发生了更复杂的叠加和自由组合。那么用户们对大数据平台的安全顾虑更偏重哪方面呢?
59%的受访者选择漏洞攻击,56%的受访者选择“数据共享安全”,相较传统环境,共享场景下的安全问题在大数据技术的应用中显得更为突出,已经能与传统安全威胁中的“漏洞攻击”打个平手。不难理解,大数据平台除了提供存储和查询的功能,更重要的价值在于数据分析和价值挖掘,这决定了大数据平台需要向多部门甚至多家单位开放,比如政务大数据平台会向该地区各政府单位提供数据接口。
46%的受访者选择“企业机密泄露”,看来用户在安全问题引发的后果中,更担心机密数据泄露,这关乎企业的命脉。
38%的受访者选择“权限控制弱”,这与大数据平台所涉及的人员规模和角色复杂程度有关,目前只有具备一定技术水平的单位具备大数据平台建设能力,但同样需要引入第三方开发、测试人员,在后期的数据维护和挖掘中,需要引入第三方服务公司,这些不同访问角色的权限划分和管控愈加重要。
28%的受访者选择“无审计信息”,可见用户对于大数据平台的审计记录比较关注,这将提供一切安全事件的追责依据。
值得注意的是,只有13%的受访者选择“违反国家法规”,这不同于以往“安全需求多出自政策要求”的传统观念,保障数据安全的刚需成为越来越多用户考虑的重点。
哪些大凯发k8游戏产品最受青睐?
传统的安全建设思路对于大数据安全同样适用,但真正落地到技术手段的实现和方案的整合中,非关系型数据库的技术结构比传统关系型数据库难度更大。另外,由于大数据平台的数据访问来源、对象以及过程都要复杂的多,安全策略的制定和实现难度也会更高,那么在数据安全产品的选择上,用户更倾向哪几类呢?
大数据运维管控产品受到59%的受访者青睐,这侧面体现了用户对运维侧的行为管控最为重视,事实上,相比应用侧的数据读写,运维侧的开发、测试、分析人员会拥有更高的数据操作权限,也意味着更高的管控难度。
其次,大数据防火墙产品为41%,由于防火墙多用于应用侧的对外安全防护,也正应了用户对漏洞攻击等外部入侵的安全防护需求。
32%的受访者选择大数据审计,该数字低于运维管控和防火墙产品,这与传统环境下的安全需求差异明显,看来用户更看重能够提供事中管控的安全手段,审计产品的旁路监控和事后追查能力也重要,但看起来没那么迫切。
“大数据风险扫描”、“敏感数据梳理”的选择者各有27%和28%。安全风险扫描能够帮助用户发现安全隐患,如安全漏洞、弱安全配置、弱口令等,有些问题可以人工修复,提高平台安全基线,也能够指导安全方案的规划。敏感数据梳理是整体数据安全建设的基础,但这项技术在规模庞大且数据类型繁杂的大数据平台中落地,会面临不小的挑战。
“大数据脱敏”有20%的青睐者,这项技术适用于数据分发和共享场景下的安全需求,但这个数字没有想象中高,也许用户是出于性能考虑?有待观察。
试用申请